Pandas read_html выдает ParseError: документ пуст из-за смайликов

Pandas read_html выдает ParseError: документ пуст из-за смайликов ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Pandas read_html выдает ParseError: документ пуст из-за смайликов

Цитата

Сообщение Anonymous » 29 окт 2023, 20:00

При очистке веб-страницы в поисках таблиц с помощью Pandas.read_html() я получаю эту ошибку из-за смайликов в исходном коде html:

lxml.etree.ParserError: документ пуст Я пробовал как читать непосредственно из источника html (в виде строки), так и читать тег , извлеченный из html.

Для очистки я использую Selenium и Beautiful Soup, включая html5lib и lxml, чтобы Pandas мог интерпретировать HTML.

Поскольку страница, которую я парсингую, очень большая, позвольте мне опубликовать воспроизводимый пример.

Предположим, вы извлекли тег из источника html с помощью soup.find_all("table"), так что строка, которую вы хотите проанализировать, это table_tag:

импортировать панд как pd table_tag = """ Компания Контакт Страна Программное обеспечение Notfall

Марио Мюллер Германия Коммерческий центр «Пеликан» Франциско Вилла

Мексика """ table = pd.read_html(table_tag,coding='utf-8') # ЗДЕСЬ ОШИБКА df = table[0] # извлекаем первую таблицу, так как таблица только одна Если вручную удалить смайлы из строки, вы получите правильный результат без ошибок:

>>> df Контактная информация компании Страна 0 Notfall Software Марио Мюллер Германия 1 Коммерческий центр Pélican Francisco Villa Мексика Однако я не могу вручную редактировать исходный большой исходный HTML-код, особенно когда я очищаю около 100 страниц.

Как прочитать исходный код без ошибок или как удалить смайлы, поскольку они мне все равно не понадобятся?

Снимок моего файла require.txt (основное для этого поста):
pandas==2.0.2 селен == 4.12.0 красивыйсуп4==4.12.2 веб-драйвер-менеджер == 3.8.6 lxml==4.9.2 html5lib==1.1

1698598837

Anonymous


При очистке веб-страницы в поисках таблиц с помощью Pandas.read_html() я получаю эту ошибку из-за смайликов в исходном коде html:
 
lxml.etree.ParserError: документ пуст  Я пробовал как читать непосредственно из источника html (в виде строки), так и читать тег , извлеченный из html.
 
Для очистки я использую Selenium и Beautiful Soup, включая html5lib и lxml, чтобы Pandas мог интерпретировать HTML.
 
Поскольку страница, которую я парсингую, очень большая, позвольте мне опубликовать воспроизводимый пример.
 
Предположим, вы извлекли тег  из источника html с помощью soup.find_all("table"), так что строка, которую вы хотите проанализировать, это table_tag:
 
импортировать панд как pd table_tag = """        Компания     Контакт     Страна           Программное обеспечение Notfall 🚑     Марио Мюллер     Германия           Коммерческий центр «Пеликан»     Франциско Вилла 😅     Мексика    """ table = pd.read_html(table_tag,coding='utf-8') # ЗДЕСЬ ОШИБКА df = table[0] # извлекаем первую таблицу, так как таблица только одна  Если вручную удалить смайлы из строки, вы получите правильный результат без ошибок:
 
>>> df                     Контактная информация компании Страна 0 Notfall Software Марио Мюллер Германия 1 Коммерческий центр Pélican Francisco Villa Мексика  Однако я не могу вручную редактировать исходный большой исходный HTML-код, особенно когда я очищаю около 100 страниц.
 
Как прочитать исходный код без ошибок или как удалить смайлы, поскольку они мне все равно не понадобятся?
 
Снимок моего файла require.txt (основное для этого поста):
 pandas==2.0.2 селен == 4.12.0 красивыйсуп4==4.12.2 веб-драйвер-менеджер == 3.8.6 lxml==4.9.2 html5lib==1.1

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Функция read() в C++ аналогична функции c read()

Последнее сообщение Гость « 09 апр 2024, 11:22
Добавлено в форуме C++

Гость » 09 апр 2024, 11:22 » в форуме C++

Существует ли какой-либо метод, эквивалентный c read() в C++? Чтобы проиллюстрировать мой вопрос, на C, если у меня есть:

struct A{
char data ;
int num;
};

...и если я использую:

A* a = malloc (sizeof(struct A));
read (fd, a, sizeof(struct...

0 Ответы

136 Просмотры

Последнее сообщение Гость
09 апр 2024, 11:22
PHP 7: SessionHandlerInterface::read(string $session_id): строка должна быть совместима с SessionHandlerInterface::read(

Последнее сообщение Anonymous « 12 дек 2024, 12:44
Добавлено в форуме Php

Anonymous » 12 дек 2024, 12:44 » в форуме Php

со следующим кодом в PHP 7.1

class MySqlSessionHandler implements \SessionHandlerInterface {
public function read(string $session_id) : string { ... }
}

Я получаю:

Неустранимая ошибка: объявление Sessions\MySqlSessionHandler:: read(string...

0 Ответы

41 Просмотры

Последнее сообщение Anonymous
12 дек 2024, 12:44
Как добавить приложение смайликов в WeChat

Последнее сообщение Anonymous « 11 дек 2024, 23:54
Добавлено в форуме Android

Anonymous » 11 дек 2024, 23:54 » в форуме Android

Я создаю приложение для смайликов, например Emojidom

Когда Я пытаюсь получить доступ к своему приложению из WeChat, но не могу этого сделать... но вижу, что приложение emojidom доступно из WeChat. Я добавил в свое приложение все необходимые...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
11 дек 2024, 23:54
Я не могу получить один шрифт для отображения Юникода (смайликов) в Java Swing

Последнее сообщение Anonymous « 10 янв 2025, 12:01
Добавлено в форуме JAVA

Anonymous » 10 янв 2025, 12:01 » в форуме JAVA

Я пытаюсь создать очень простой текстовый редактор на Java (представьте себе Блокнот).
Но я не могу найти ни одного шрифта, который мог бы отображать символы Юникода (эмодзи), например как: 🤩 🌍 🎉

Для этого я также создал очень простое тестовое...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
10 янв 2025, 12:01
Как удалить все символы смайликов (Unicode) из строкового Python

Последнее сообщение Anonymous « 07 фев 2025, 14:14
Добавлено в форуме Python

Anonymous » 07 фев 2025, 14:14 » в форуме Python

У меня есть следующая строка:
tweet = Get $10 worth of AMAL!!\\nThis campaign will be final AirDrop before official release!!\\n please!\\n\\n#amanpuri #AMAL\\n#BTC #XRP #ETH \\n#cryptocurrency \\n#China #bitcoin...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
07 фев 2025, 14:14

Вернуться в «Python»