Как извлечь все содержимое тега <div> определенного имени класса из HTML, используя регулярные выражения в Python?

Как извлечь все содержимое тега
определенного имени класса из HTML, используя регулярные выражения в Python? ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

определенного имени класса из HTML, используя регулярные выражения в Python?

Цитата

Сообщение Anonymous » 21 сен 2024, 16:17

Я пишу сканер на Python, который должен извлекать содержимое всех тегов с определенным именем класса (например, «имя-класса») из HTML-документа. Я узнал, что регулярные выражения обычно не являются лучшим инструментом для анализа HTML, поскольку они могут дать сбой из-за сложности и вложенной структуры HTML. Однако в данном конкретном случае структура HTML относительно проста и предсказуема, поэтому я хотел бы попробовать использовать для этой задачи регулярные выражения. Я попробовал следующий код, но, похоже, он не работает должным образом:
Мой вопрос:
Правильно ли мое регулярное выражение? Если возникла ошибка, как ее следует изменить, чтобы гарантировать, что она захватывает только содержимое тегов с именем класса «имя класса»?
Если регулярные выражения действительно не Как лучше всего справиться с этой ситуацией, можете ли вы порекомендовать более подходящую библиотеку Python (например, BeautifulSoup) для решения этой проблемы и предоставить краткий пример кода?

Флаг re.DOTALL используется для того, чтобы символ . соответствовал любому символу, включая символы новой строки.
Флаг re.IGNORECASE не является обязательным, но может быть полезен, если вы не уверены в чувствительности к регистру имени класса.
Это регулярное выражение предполагает, что внутри целевых тегов нет вложенных тегов с одинаковым именем класса. Вложенные теги могут нарушить это регулярное выражение.
Атрибуты HTML могут располагаться в любом порядке. Могут присутствовать дополнительные атрибуты или пробелы, которые могут сделать регулярное выражение решения хрупкие.

Код: Выделить всё

    import re

html_content = """


Don't want this content
Need this content
Also need this content


"""

pattern = r'(.*?)'
matches = re.findall(pattern, html_content, re.DOTALL)

for match in matches:
print(match.strip())

Подробнее здесь: https://stackoverflow.com/questions/790 ... ml-using-r

1726924627

Anonymous

Я пишу сканер на Python, который должен извлекать содержимое всех тегов  с определенным именем класса (например, «имя-класса») из HTML-документа. Я узнал, что регулярные выражения обычно не являются лучшим инструментом для анализа HTML, поскольку они могут дать сбой из-за сложности и вложенной структуры HTML. Однако в данном конкретном случае структура HTML относительно проста и предсказуема, поэтому я хотел бы попробовать использовать для этой задачи регулярные выражения. Я попробовал следующий код, но, похоже, он не работает должным образом:
Мой вопрос:
Правильно ли мое регулярное выражение? Если возникла ошибка, как ее следует изменить, чтобы гарантировать, что она захватывает только содержимое тегов  с именем класса «имя класса»?
Если регулярные выражения действительно не Как лучше всего справиться с этой ситуацией, можете ли вы порекомендовать более подходящую библиотеку Python (например, BeautifulSoup) для решения этой проблемы и предоставить краткий пример кода?
[list]
[*] Флаг re.DOTALL используется для того, чтобы символ . соответствовал любому символу, включая символы новой строки.

[*]
Флаг re.IGNORECASE не является обязательным, но может быть полезен, если вы не уверены в чувствительности к регистру имени класса.

[*] Это регулярное выражение предполагает, что внутри целевых тегов  нет вложенных тегов  с одинаковым именем класса. Вложенные теги могут нарушить это регулярное выражение.

[*]Атрибуты HTML могут располагаться в любом порядке. Могут присутствовать дополнительные атрибуты или пробелы, которые могут сделать регулярное выражение решения хрупкие.

[*]
[code]    import re

html_content = """


Don't want this content
Need this content
Also need this content


"""

pattern = r'(.*?)'
matches = re.findall(pattern, html_content, re.DOTALL)

for match in matches:
print(match.strip())

[/code]

[/list] 

Подробнее здесь: [url]https://stackoverflow.com/questions/79009586/how-to-extract-all-div-tag-contents-of-a-specific-class-name-from-html-using-r[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как извлечь все содержимое тега
определенного имени класса из HTML, используя регулярные выражения в Python?

Последнее сообщение Anonymous « 21 сен 2024, 17:58
Добавлено в форуме Python

Anonymous » 21 сен 2024, 17:58 » в форуме Python

Я пишу сканер на Python, который должен извлекать содержимое всех тегов с определенным именем класса (например, «имя-класса») из HTML-документа. Я узнал, что регулярные выражения обычно не являются лучшим инструментом для анализа HTML, поскольку они...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
21 сен 2024, 17:58
Найти элемент по имени тега внутри элемента по имени тега (Selenium)

Последнее сообщение Anonymous « 28 июл 2024, 20:05
Добавлено в форуме Python

Anonymous » 28 июл 2024, 20:05 » в форуме Python

Я хочу распечатать все href(ссылки) с веб-сайта. Все эти href хранятся в теге «a», а эти теги a хранятся в теге «li». Теперь я знаю, как выделить все ли. Мне нужен способ выбрать все буквы a внутри li, чтобы получить атрибут href. Пробовал...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
28 июл 2024, 20:05
Найти элемент по имени тега внутри элемента по имени тега (Selenium)

Последнее сообщение Anonymous « 03 авг 2024, 17:17
Добавлено в форуме Python

Anonymous » 03 авг 2024, 17:17 » в форуме Python

Я хочу распечатать все href(ссылки) с веб-сайта. Все эти href хранятся в теге «a», а эти теги a хранятся в теге «li». Теперь я знаю, как выделить все ли. Мне нужен способ выбрать все буквы a внутри li, чтобы получить атрибут href. Пробовал...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
03 авг 2024, 17:17
Итерация над строкой. Поиск специальных персонажей. Используя регулярные выражения

Последнее сообщение Anonymous « 14 июл 2025, 08:04
Добавлено в форуме JAVA

Anonymous » 14 июл 2025, 08:04 » в форуме JAVA

Моя цель состоит в том, чтобы итерация через струну и вытащить экземпляры определенных символов.

В идеале я хотел бы использовать шаблон и совпадение. Выяснит, будет ли часть строки является числом или оператором +, и, в свою очередь, сохранить...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
14 июл 2025, 08:04
Сопоставьте строку со строкой JSON, используя регулярные выражения

Последнее сообщение Anonymous « 10 сен 2025, 18:59
Добавлено в форуме JAVA

Anonymous » 10 сен 2025, 18:59 » в форуме JAVA

В моем коде ниже, Coldata хранит json string . Пример примера для Coldata-

{ lv : , LMD : 20130}

Теперь я пытаюсь сопоставить идентификатор value со значением userId в вышеуказанной строке json .
Значение, если идентификатор значение 493 ,...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
10 сен 2025, 18:59

Вернуться в «Python»

Как извлечь все содержимое тега определенного имени класса из HTML, используя регулярные выражения в Python? ⇐ Python

Быстрый ответ

Как извлечь все содержимое тега
определенного имени класса из HTML, используя регулярные выражения в Python? ⇐ Python