При очистке веб-страницы в поисках таблиц с помощью Pandas.read_html() я получаю эту ошибку из-за смайликов в исходном коде html:
lxml.etree.ParserError: документ пуст Я пробовал как читать непосредственно из источника html (в виде строки), так и читать тег , извлеченный из html.
Для очистки я использую Selenium и Beautiful Soup, включая html5lib и lxml, чтобы Pandas мог интерпретировать HTML.
Поскольку страница, которую я парсингую, очень большая, позвольте мне опубликовать воспроизводимый пример.
Предположим, вы извлекли тег из источника html с помощью soup.find_all("table"), так что строка, которую вы хотите проанализировать, это table_tag:
импортировать панд как pd table_tag = """ Компания Контакт Страна Программное обеспечение Notfall
>>> df Контактная информация компании Страна 0 Notfall Software Марио Мюллер Германия 1 Коммерческий центр Pélican Francisco Villa Мексика Однако я не могу вручную редактировать исходный большой исходный HTML-код, особенно когда я очищаю около 100 страниц.
Как прочитать исходный код без ошибок или как удалить смайлы, поскольку они мне все равно не понадобятся?
Снимок моего файла require.txt (основное для этого поста):
pandas==2.0.2 селен == 4.12.0 красивыйсуп4==4.12.2 веб-драйвер-менеджер == 3.8.6 lxml==4.9.2 html5lib==1.1