Как выбрать данные из действительных тегов HTML в Python? - Цифровое Кемерово

Как выбрать данные из действительных тегов HTML в Python? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как выбрать данные из действительных тегов HTML в Python?

Цитата

Сообщение Anonymous » 19 янв 2025, 09:31

У меня есть следующие текстовые данные в текстовом файле. В тексте есть некоторые HTML-теги, но они не являются однородными. Как вы видите в примере, существует несколько тегов, есть только одна действительная пара тегов, и я хочу извлечь текст между допустимыми тегами.
text = '''
some text here additional text here The universe really seems to be expanding fast. Too fast, even. A new measurement confirms what previous—and highly debated—results had shown: The universe is expanding faster than predicted by theoretical models, and faster than can be explained by our current understanding of physics.
'''

Я пытался использовать регулярное выражение, чтобы проверить, смогу ли я извлечь текст из допустимого набора тегов документа, но при распечатке получаю все содержимое файла.
Я пытался использовать регулярное выражение, чтобы увидеть, смогу ли я извлечь текст из допустимого набора тегов документа, но я получаю все содержимое файла, когда распечатываю его. p>
есть мысли?
import re

with open('data.txt', 'r') as f:
text = f.read()

input = re.findall(r".*?", text, re.DOTALL)

for i in input :
print(i)

Подробнее здесь: https://stackoverflow.com/questions/793 ... -in-python

1737268307

Anonymous

У меня есть следующие текстовые данные в текстовом файле. В тексте есть некоторые HTML-теги, но они не являются однородными. Как вы видите в примере, существует несколько тегов, есть только одна действительная пара тегов, и я хочу извлечь текст между допустимыми тегами.
text = '''
some text here  additional text here  The universe really seems to be expanding fast. Too fast, even. A new measurement confirms what previous—and highly debated—results had shown: The universe is expanding faster than predicted by theoretical models, and faster than can be explained by our current understanding of physics.
'''

Я пытался использовать регулярное выражение, чтобы проверить, смогу ли я извлечь текст из допустимого набора тегов документа, но при распечатке получаю все содержимое файла.
Я пытался использовать регулярное выражение, чтобы увидеть, смогу ли я извлечь текст из допустимого набора тегов документа, но я получаю все содержимое файла, когда распечатываю его. p>
есть мысли?
import re

with open('data.txt', 'r') as f:
text = f.read()

input = re.findall(r".*?", text, re.DOTALL)

for i in input :
print(i)

 

Подробнее здесь: [url]https://stackoverflow.com/questions/79368372/how-to-select-data-from-valid-html-tags-in-python[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»