Pandas read_html выдает ParseError: документ пуст из-за смайликовPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Pandas read_html выдает ParseError: документ пуст из-за смайликов

Сообщение Anonymous »


При очистке веб-страницы в поисках таблиц с помощью Pandas.read_html() я получаю эту ошибку из-за смайликов в исходном коде html:

lxml.etree.ParserError: документ пуст Я пробовал как читать непосредственно из источника html (в виде строки), так и читать тег , извлеченный из html.

Для очистки я использую Selenium и Beautiful Soup, включая html5lib и lxml, чтобы Pandas мог интерпретировать HTML.

Поскольку страница, которую я парсингую, очень большая, позвольте мне опубликовать воспроизводимый пример.

Предположим, вы извлекли тег из источника html с помощью soup.find_all("table"), так что строка, которую вы хотите проанализировать, это table_tag:

импортировать панд как pd table_tag = """ Компания Контакт Страна Программное обеспечение Notfall 🚑 Марио Мюллер Германия Коммерческий центр «Пеликан» Франциско Вилла 😅 Мексика """ table = pd.read_html(table_tag,coding='utf-8') # ЗДЕСЬ ОШИБКА df = table[0] # извлекаем первую таблицу, так как таблица только одна Если вручную удалить смайлы из строки, вы получите правильный результат без ошибок:

>>> df Контактная информация компании Страна 0 Notfall Software Марио Мюллер Германия 1 Коммерческий центр Pélican Francisco Villa Мексика Однако я не могу вручную редактировать исходный большой исходный HTML-код, особенно когда я очищаю около 100 страниц.

Как прочитать исходный код без ошибок или как удалить смайлы, поскольку они мне все равно не понадобятся?

Снимок моего файла require.txt (основное для этого поста):
pandas==2.0.2 селен == 4.12.0 красивыйсуп4==4.12.2 веб-драйвер-менеджер == 3.8.6 lxml==4.9.2 html5lib==1.1
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Функция read() в C++ аналогична функции c read()
    Гость » » в форуме C++
    0 Ответы
    136 Просмотры
    Последнее сообщение Гость
  • PHP 7: SessionHandlerInterface::read(string $session_id): строка должна быть совместима с SessionHandlerInterface::read(
    Anonymous » » в форуме Php
    0 Ответы
    41 Просмотры
    Последнее сообщение Anonymous
  • Как добавить приложение смайликов в WeChat
    Anonymous » » в форуме Android
    0 Ответы
    6 Просмотры
    Последнее сообщение Anonymous
  • Я не могу получить один шрифт для отображения Юникода (смайликов) в Java Swing
    Anonymous » » в форуме JAVA
    0 Ответы
    5 Просмотры
    Последнее сообщение Anonymous
  • Как удалить все символы смайликов (Unicode) из строкового Python
    Anonymous » » в форуме Python
    0 Ответы
    10 Просмотры
    Последнее сообщение Anonymous

Вернуться в «Python»