У меня есть следующие текстовые данные в текстовом файле. В тексте есть некоторые HTML -подобные теги, но не равномерные. Как вы видите в примере, есть несколько тегов, есть только одна допустимая пара тегов, и я хочу извлечь текст между действительными тегами.
На основе предоставленных комментариев/ответов, Я хочу уточнить, что не будет никаких вложенных тегов.text = '''
some text here additional text here The universe really seems to be expanding fast. Too fast, even. A new measurement confirms what previous—and highly debated—results had shown: The universe is expanding faster than predicted by theoretical models, and faster than can be explained by our current understanding of physics.
'''
Я попытался использовать регулярное выражение, чтобы увидеть, если я могу извлечь текст из допустимого набора тегов документа, но я получаю все содержимое файла, когда распечатаю его.
Есть мысли? < /p>
import re
with open('data.txt', 'r') as f:
text = f.read()
input = re.findall(r".*?", text, re.DOTALL)
for i in input :
print(i)
Подробнее здесь: https://stackoverflow.com/questions/793 ... -in-python