Я использую Beautiful Soup, чтобы извлечь текстовое содержимое из данных HTML. У меня есть тег div и несколько абзацев, а последний абзац — это информация об авторских правах с логотипом авторских прав, годом и некоторой дополнительной информацией. год отличается в зависимости от того, в каком году был контент, поэтому я не могу найти точный текст, но остальное всегда одно и то же, за исключением переменного года.
есть ли способ, которым я могу это сделать? удалить/проигнорировать последний абзац?
Код: Выделить всё
from bs4 import BeautifulSoup
text_content = '
here is the header information
some text content
another block of text
.....
2024 copyright , all rights reserved
'
bs = BeautifulSoup(text_content, "html.parser")
only_text = " ".join([p.text for p in soup.find_all("p")])
Я использовал красивый суп, чтобы получить весь текстовый контент, теперь я хочу удалить определенный абзац.
Подробнее здесь:
https://stackoverflow.com/questions/791 ... -beautiful