У меня есть следующие текстовые данные в текстовом файле. В тексте есть некоторые HTML-теги, но они не являются однородными. Как вы видите в примере, существует несколько тегов, есть только одна действительная пара тегов, и я хочу извлечь текст между допустимыми тегами.
text = '''
some text here additional text here The universe really seems to be expanding fast. Too fast, even. A new measurement confirms what previous—and highly debated—results had shown: The universe is expanding faster than predicted by theoretical models, and faster than can be explained by our current understanding of physics.
'''
Я пытался использовать регулярное выражение, чтобы проверить, смогу ли я извлечь текст из допустимого набора тегов документа, но при распечатке получаю все содержимое файла.
Я пытался использовать регулярное выражение, чтобы увидеть, смогу ли я извлечь текст из допустимого набора тегов документа, но я получаю все содержимое файла, когда распечатываю его. p>
есть мысли?
import re
with open('data.txt', 'r') as f:
text = f.read()
input = re.findall(r".*?", text, re.DOTALL)
for i in input :
print(i)
Подробнее здесь: https://stackoverflow.com/questions/793 ... -in-python
Как выбрать данные из действительных тегов HTML в Python? ⇐ Python
Программы на Python
-
Anonymous
1737268307
Anonymous
У меня есть следующие текстовые данные в текстовом файле. В тексте есть некоторые HTML-теги, но они не являются однородными. Как вы видите в примере, существует несколько тегов, есть только одна действительная пара тегов, и я хочу извлечь текст между допустимыми тегами.
text = '''
some text here additional text here The universe really seems to be expanding fast. Too fast, even. A new measurement confirms what previous—and highly debated—results had shown: The universe is expanding faster than predicted by theoretical models, and faster than can be explained by our current understanding of physics.
'''
Я пытался использовать регулярное выражение, чтобы проверить, смогу ли я извлечь текст из допустимого набора тегов документа, но при распечатке получаю все содержимое файла.
Я пытался использовать регулярное выражение, чтобы увидеть, смогу ли я извлечь текст из допустимого набора тегов документа, но я получаю все содержимое файла, когда распечатываю его. p>
есть мысли?
import re
with open('data.txt', 'r') as f:
text = f.read()
input = re.findall(r".*?", text, re.DOTALL)
for i in input :
print(i)
Подробнее здесь: [url]https://stackoverflow.com/questions/79368372/how-to-select-data-from-valid-html-tags-in-python[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия