Красивый суп; разделение абзаца только по
, где Stripped_strings не работает
Python

Программы на Python
Anonymous
 Красивый суп; разделение абзаца только по
, где Stripped_strings не работает

Сообщение Anonymous »

Я новичок в использовании Beautiful Soup, и у меня возникли некоторые проблемы с правильным разделением части HTML-кода: я просматриваю только разрывы HTML и игнорирую другие элементы HTML, такие как изменения цвета шрифта и т. д.
Код выполняется на странице в поисках всех разделов цитаты, причем каждый раздел цитаты содержит одну или несколько строк текста, подобных следующему:

RT CLOAK
RT COAT
Изображение

BT GARMENT
Изображение

NP ABBA



Изображение


в две строки данных в моем списке, что дает мне такой результат:
2 ABAYAH RT CLOAK
2 ABAYAH RT
2 ABAYAH COAT
2 ABAYAH BT GARMENT
2 ABAYAH NP ABBA

Как разделить только по разрывам, чтобы получить следующий результат:
2 ABAYAH RT CLOAK
2 ABAYAH RT COAT
2 ABAYAH BT GARMENT
2 ABAYAH NP ABBA

На данный момент у меня есть следующий код:
from bs4 import BeautifulSoup
import requests

pages = ['https://terminology.collectionstrust.or ... thesa1.htm']

b = 1

for bp in pages:

response = requests.get(bp)
html = response.text

soup = BeautifulSoup(html, "lxml")

y = soup.find_all('blockquote')
for x in y:
z = x.find_previous('p')
for l in x.stripped_strings:
print(b, z.text, l)
b = b+1


Подробнее здесь: https://stackoverflow.com/questions/797 ... ngs-is-not

Вернуться в «Python»