Как выбрать данные из действительных тегов HTML в Python?Python

Программы на Python
Anonymous
 Как выбрать данные из действительных тегов HTML в Python?

Сообщение Anonymous »

У меня есть следующие текстовые данные в текстовом файле. В тексте есть некоторые HTML -подобные теги, но не равномерные. Как вы видите в примере, есть несколько тегов, есть только одна допустимая пара тегов, и я хочу извлечь текст между действительными тегами.
На основе предоставленных комментариев/ответов, Я хочу уточнить, что не будет никаких вложенных тегов.text = '''
some text here additional text here The universe really seems to be expanding fast. Too fast, even. A new measurement confirms what previous—and highly debated—results had shown: The universe is expanding faster than predicted by theoretical models, and faster than can be explained by our current understanding of physics.
'''

Я попытался использовать регулярное выражение, чтобы увидеть, если я могу извлечь текст из допустимого набора тегов документа, но я получаю все содержимое файла, когда распечатаю его.
Есть мысли? < /p>
import re

with open('data.txt', 'r') as f:
text = f.read()

input = re.findall(r".*?", text, re.DOTALL)

for i in input :
print(i)


Подробнее здесь: https://stackoverflow.com/questions/793 ... -in-python

Вернуться в «Python»