Я пытаюсь загрузить какой -то контент с сайта словаря, такого как http://dictionary.reference.com/browse/apple?s=t
Проблема, которую я возникает, заключается в том, что у оригинального абзаца есть все эти скрипные строки, и обратные буквы, и, так что, когда я читаю локальные файлы, я в конечном итоге с этими смешными экологическими персонажами \ x85, и xa, и т. Д., так что, так что, когда я читаю локальные файлы, я в конечном итоге с этими смешными экологическими персонажами \ x85, \ x. \ x, и т. Д. < /p>
Мой вопрос: есть ли какой-нибудь способ преобразовать все эти спасательные символы в их соответствующие символы UTF-8, например, если есть 'à' Как мне преобразовать в стандартный код «a '?import os
word = 'apple'
os.system(r'wget.lnk --directory-prefix=G:/projects/words/dictionary/urls/ --output-document=G:\projects\words\dictionary\urls/' + word + '-dict.html http://dictionary.reference.com/browse/' + word)
< /code>
Я использую wget-1.11.4-1 в системе Windows 7 (не убивайте люди Linux, это было требование клиента), и Wget Exe выпускается с помощью файла сценария Python 2.6. < /p>
Подробнее здесь: https://stackoverflow.com/questions/141 ... ut-accents
Как преобразовать акцентированные символы Unicode в чистый ASCII без акцентов? ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение