Код: Выделить всё
2
bananas
3
oranges
Код: Выделить всё
2 bananas
3 oranges
Интересно, что html2text может обеспечить идеальный вывод для таких типов файлов (без тега), но beautifulsoup, похоже, вообще не может сделать это правильно. beautifulsoup будет выводить каждое слово в строке, или многие онлайн-решения будут создавать конкатенацию с пробелами между словами, используя ' ' .join(t.strip() for t в видимом_тексте)
Это вложение видимого текста на несколько нижних уровней, которое, по-видимому, и вызывает проблему с красивым супом. внутри также вызывает те же проблемы.
Я пробовал это:
Код: Выделить всё
soup = BeautifulSoup(myHtmlFile, 'html.parser')
groupedElements = soup.findAll(['ul','ol','td','p','li', 'br','div'])
for internalElements in groupedElements:
for listElement in internalElements:
wantedText = listElement.text
wantedTag = inernalElements.parent
Подробнее здесь: https://stackoverflow.com/questions/727 ... sily-found
Мобильная версия