Как выбрать конкретный тег div или pragraph из HTML-контента с помощью красивого супа? - Цифровое Кемерово

Как выбрать конкретный тег div или pragraph из HTML-контента с помощью красивого супа? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как выбрать конкретный тег div или pragraph из HTML-контента с помощью красивого супа?

Цитата

Сообщение Anonymous » 27 ноя 2024, 03:03

Я использую Beautiful Soup, чтобы извлечь текстовое содержимое из данных HTML. У меня есть тег div и несколько абзацев, а последний абзац — это информация об авторских правах с логотипом авторских прав, годом и некоторой дополнительной информацией. год отличается в зависимости от того, в каком году был контент, поэтому я не могу найти точный текст, но остальное всегда одно и то же, за исключением переменного года.
есть ли способ, которым я могу это сделать? удалить/проигнорировать последний абзац?

Код: Выделить всё

from bs4 import BeautifulSoup

text_content = '
here is the header information 

 some text content 
 
 another block of text
 .....
 2024 copyright , all rights reserved 
'

bs = BeautifulSoup(text_content, "html.parser")

only_text = " ".join([p.text for p in soup.find_all("p")])

Я использовал красивый суп, чтобы получить весь текстовый контент, теперь я хочу удалить определенный абзац.

Подробнее здесь: https://stackoverflow.com/questions/791 ... -beautiful

1732665838

Anonymous

Я использую Beautiful Soup, чтобы извлечь текстовое содержимое из данных HTML. У меня есть тег div и несколько абзацев, а последний абзац — это информация об авторских правах с логотипом авторских прав, годом и некоторой дополнительной информацией. год отличается в зависимости от того, в каком году был контент, поэтому я не могу найти точный текст, но остальное всегда одно и то же, за исключением переменного года.
есть ли способ, которым я могу это сделать? удалить/проигнорировать последний абзац?
[code]from bs4 import BeautifulSoup

text_content = '
here is the header information 

 some text content 
 
 another block of text
 .....
 2024 copyright , all rights reserved 
'

bs = BeautifulSoup(text_content, "html.parser")

only_text = " ".join([p.text for p in soup.find_all("p")])
[/code]
Я использовал красивый суп, чтобы получить весь текстовый контент, теперь я хочу удалить определенный абзац. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79152912/how-to-select-a-particular-div-or-pragraph-tag-from-html-content-using-beautiful[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»