Кодек 'charmap' не может декодировать байт 0x8d в позиции 33222: символы отображаются в [дубликат]Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Кодек 'charmap' не может декодировать байт 0x8d в позиции 33222: символы отображаются в [дубликат]

Сообщение Anonymous »

Я пытаюсь проанализировать очень длинный HTML-файл с помощью lxml через BeautifulSoup. Я знаю, что кодировка символов html-файла — UTF-8 со спецификацией, но всякий раз, когда я пытаюсь запустить содержимое = f.read(), я получаю следующую ошибку:

'charmap' codec can't decode byte 0x8d in position 33222: character maps to

Это первый (и проблемный) фрагмент моего кода:



from bs4 import BeautifulSoup

with open("doc.html", "r") as f:

contents = f.read()

soup = BeautifulSoup(contents, 'lxml')

print(soup.h2)
print(soup.head)
print(soup.li)


Это сообщение об ошибке:

UnicodeDecodeError Traceback (most recent call last)
in
3 with open("doc.html", "r") as f:
4
----> 5 contents = f.read()
6
7 soup = BeautifulSoup(contents, 'lxml')

~\Anaconda3\lib\encodings\cp1252.py in decode(self, input, final)
21 class IncrementalDecoder(codecs.IncrementalDecoder):
22 def decode(self, input, final=False):
---> 23 return codecs.charmap_decode(input,self.errors,decoding_table)[0]
24
25 class StreamWriter(Codec,codecs.StreamWriter):

UnicodeDecodeError: 'charmap' codec can't decode byte 0x8d in position 33222: character maps to


Подробнее здесь: https://stackoverflow.com/questions/594 ... aps-to-und
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»