Python lxml.html.parse не читает URL-адрес – или как получить request.get в lxml.html.dom? - Цифровое Кемерово

Python lxml.html.parse не читает URL-адрес – или как получить request.get в lxml.html.dom? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Python lxml.html.parse не читает URL-адрес – или как получить request.get в lxml.html.dom?

Цитата

Сообщение Anonymous » 09 май 2024, 19:44

Приведенный ниже код работает для многих веб-страниц, но для некоторых, подобных приведенному ниже, он выдает ошибку:

Ошибка: ошибка чтения файла
/>'http://akademos-garden.com/homeschoolin ... me-parents':
не удалось загрузить HTTP-ресурс

Python для воспроизведения:

Код: Выделить всё

from lxml.html import parse
import requests
import pprint

page_url = 'http://akademos-garden.com/homeschooling-tips-work-home-parents/'

try:
parsed_page = parse(page_url)

dom = parsed_page.getroot()

except Exception as e:
# TODO - log this into some other error table to come back and research
errMsg = f"Error: {e} "
print(errMsg)

print("Try get without User-Agent")
result = requests.get(page_url).status_code
pprint.pprint(result)

print("Try get with User-Agent")
result = requests.get(page_url, headers={'User-Agent': None}).status_code
pprint.pprint(result)

Этот пост относится к добавлению User-Agent, но я не понимаю, как это сделать с помощью lxml. Оба запроса request.get, описанные выше, выполняются без ошибок, возвращают http status=200.
python lxml.html.parse не читает URL-адрес.
Если Мне нужно использовать request.get, я могу это сделать, но как мне получить его в объекте dom?

Подробнее здесь: https://stackoverflow.com/questions/784 ... o-lxml-htm

Реклама

1715273050

Anonymous

Приведенный ниже код работает для многих веб-страниц, но для некоторых, подобных приведенному ниже, он выдает ошибку:

Ошибка: ошибка чтения файла
/>'http://akademos-garden.com/homeschooling-tips-work-home-parents':
не удалось загрузить HTTP-ресурс

Python для воспроизведения:
[code]from lxml.html import parse
import requests
import pprint

page_url = 'http://akademos-garden.com/homeschooling-tips-work-home-parents/'

try:
parsed_page = parse(page_url)

dom = parsed_page.getroot()

except Exception as e:
# TODO - log this into some other error table to come back and research
errMsg = f"Error: {e} "
print(errMsg)

print("Try get without User-Agent")
result = requests.get(page_url).status_code
pprint.pprint(result)

print("Try get with User-Agent")
result = requests.get(page_url, headers={'User-Agent': None}).status_code
pprint.pprint(result)
[/code]
Этот пост относится к добавлению User-Agent, но я не понимаю, как это сделать с помощью lxml. Оба запроса request.get, описанные выше, выполняются без ошибок, возвращают http status=200.
python lxml.html.parse не читает URL-адрес.
Если Мне нужно использовать request.get, я могу это сделать, но как мне получить его в объекте dom? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78455734/python-lxml-html-parse-not-reading-url-or-how-to-get-request-get-into-lxml-htm[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

В чем разница между request.GET.get('username') и request.META.get('HTTP_X_ USERNAME') в DRF

Последнее сообщение Anonymous « 23 сен 2024, 15:13
Добавлено в форуме Python

Anonymous » 23 сен 2024, 15:13 » в форуме Python

Я хочу знать разницу между этими двумя методами получения данных.
Просто пытался разобраться в объектных концепциях получения данных...
Я видел request.GET.get('username') используется в customauth.py во время пользовательской аутентификации, а...

0 Ответы

145 Просмотры

Последнее сообщение Anonymous
23 сен 2024, 15:13
Поместить запрос на вывод 400 ошибки клиента: плохой запрос на URL -адрес, но Get Request работает нормально

Последнее сообщение Anonymous « 23 апр 2025, 13:01
Добавлено в форуме Python

Anonymous » 23 апр 2025, 13:01 » в форуме Python

Я получаю ошибку «400 клиентов: плохой запрос на URL», когда я пытаюсь запустить свой запрос на то, чтобы обновить свой лист Google. Ссылка, предоставленная из состояний ошибки, «несанкционирована. Для доступа к этому API требуется действительный...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
23 апр 2025, 13:01
Python lxml.html SyntaxError: неверный предикат с XPath при использовании LXML Найти [дубликат]

Последнее сообщение Anonymous « 20 фев 2025, 19:56
Добавлено в форуме Python

Anonymous » 20 фев 2025, 19:56 » в форуме Python

Я использую CPYTHON 3.12.6, LXML 5.3.1, Windows 11 Pro 23H2 x64.
Следующий код Python повышает исключение:
tree.find( .//table //tr )

SyntaxError: invalid predicate

Interestingly the following works:
tree.xpath( .//table //tr )

Why?
I am...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
20 фев 2025, 19:56
Python lxml.html SyntaxError: неверный предикат с XPath при использовании LXML

Последнее сообщение Anonymous « 20 фев 2025, 20:46
Добавлено в форуме Python

Anonymous » 20 фев 2025, 20:46 » в форуме Python

Я использую CPYTHON 3.12.6, LXML 5.3.1, Windows 11 Pro 23H2 x64.
Следующий код Python повышает исключение:
tree.find( .//table //tr )

SyntaxError: invalid predicate

Interestingly the following works:
tree.xpath( .//table //tr )

Why?
I am...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
20 фев 2025, 20:46
Считается ли вызов функций манипуляции с DOM из модуля DOM.JS в модулях index.js как логика и разлука DOM?

Последнее сообщение Anonymous « 01 апр 2025, 21:45
Добавлено в форуме Javascript

Anonymous » 01 апр 2025, 21:45 » в форуме Javascript

Я работаю над проектом Game Battleship Game и хотел получить некоторый отзыв о моем подходе к разделению игровой логики и манипуляции с DOM. Текущее состояние игры.
манипуляции с DOM (рендерингом платы, обновления ячеек и т. Д.) Обработается...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
01 апр 2025, 21:45

Вернуться в «Python»

Programmiererforum