Как выбрать данные из действительных тегов HTML в Python? - Цифровое Кемерово

Как выбрать данные из действительных тегов HTML в Python? ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как выбрать данные из действительных тегов HTML в Python?

Сообщение Anonymous » 29 янв 2025, 08:53

У меня есть следующие текстовые данные в текстовом файле. В тексте есть некоторые HTML -подобные теги, но не равномерные. Как вы видите в примере, есть несколько тегов, есть только одна допустимая пара тегов, и я хочу извлечь текст между действительными тегами.
На основе предоставленных комментариев/ответов, Я хочу уточнить, что не будет никаких вложенных тегов.text = '''
some text here additional text here The universe really seems to be expanding fast. Too fast, even. A new measurement confirms what previous—and highly debated—results had shown: The universe is expanding faster than predicted by theoretical models, and faster than can be explained by our current understanding of physics.
'''

Я попытался использовать регулярное выражение, чтобы увидеть, если я могу извлечь текст из допустимого набора тегов документа, но я получаю все содержимое файла, когда распечатаю его.
Есть мысли? < /p>
import re

with open('data.txt', 'r') as f:
text = f.read()

input = re.findall(r".*?", text, re.DOTALL)

for i in input :
print(i)

Подробнее здесь: https://stackoverflow.com/questions/793 ... -in-python

Anonymous

1 сообщение • Страница 1 из 1

Вернуться в «Python»