Python lxml.html.parse не читает URL-адрес – или как получить request.get в lxml.html.dom?Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Python lxml.html.parse не читает URL-адрес – или как получить request.get в lxml.html.dom?

Сообщение Anonymous »

Приведенный ниже код работает для многих веб-страниц, но для некоторых, подобных приведенному ниже, он выдает ошибку:

Ошибка: ошибка чтения файла
/>'http://akademos-garden.com/homeschoolin ... me-parents':
не удалось загрузить HTTP-ресурс

Python для воспроизведения:

Код: Выделить всё

from lxml.html import parse
import requests
import pprint

page_url = 'http://akademos-garden.com/homeschooling-tips-work-home-parents/'

try:
parsed_page = parse(page_url)

dom = parsed_page.getroot()

except Exception as e:
# TODO - log this into some other error table to come back and research
errMsg = f"Error: {e} "
print(errMsg)

print("Try get without User-Agent")
result = requests.get(page_url).status_code
pprint.pprint(result)

print("Try get with User-Agent")
result = requests.get(page_url, headers={'User-Agent': None}).status_code
pprint.pprint(result)
Этот пост относится к добавлению User-Agent, но я не понимаю, как это сделать с помощью lxml. Оба запроса request.get, описанные выше, выполняются без ошибок, возвращают http status=200.
python lxml.html.parse не читает URL-адрес.
Если Мне нужно использовать request.get, я могу это сделать, но как мне получить его в объекте dom?

Подробнее здесь: https://stackoverflow.com/questions/784 ... o-lxml-htm
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»