Запрос HTML открытой загруженной страницы (с бесконечной прокруткой) в Python без SeleniumJavascript

Форум по Javascript
Ответить
Anonymous
 Запрос HTML открытой загруженной страницы (с бесконечной прокруткой) в Python без Selenium

Сообщение Anonymous »

Я пытаюсь, без какой-либо причины, кроме личного удовлетворения, парсить некоторые веб-сайты с бесконечной прокруткой, используя Python (я думаю, они работают с JavaScript, но я не знаю, что это такое, это то, что я предполагаю, просматривая множество страниц на этом веб-сайте - Instagram - это веб-сайт, который я пробовал, с общедоступными профилями, но он такой же, как YouTube).
Я не хочу использовать Selenium, так как я не знаю, что он делает, и не знаю, могу ли я ему доверять — и я не знаю многого о нем.
Мне удается добраться до определенной страницы и загрузить ее настолько глубоко, насколько я хочу, используя Python, но я не могу получить HTML-коды страницы, из которых я мог бы получить все содержимое внутри страницы (извините, если я говорю что-то неправильно, я вообще не эксперт в этом). По крайней мере, я думаю, что это HTML: рабочий код для ограниченных данных (из-за отсутствия загрузки страницы) работает с командой "httpx.Client().get({url})" из "import httpx" и обрабатывается с помощью "json.loads()" из "import json".
То, что мне сейчас нужно, это чем-то заменить команду Selenium. «{webdriver.Firefox().}page_source», из которого я получал данные для анализа с помощью beautifulsoup4. Я также не могу использовать Selenium, потому что, когда я выполняю код, браузер открывается другим способом (не с помощью веб-драйвера Selenium, что, похоже, вызывает у меня некоторые проблемы) (я также не могу найти исходный код Selenium).
В противном случае мне понадобится что-то (скорее всего, что-то вроде запроса «get»), чтобы получить данные со страницы, которую я загрузил, которая затем будет обработана с помощью «json.loads()» из «import json» (я у меня есть рабочий код, который извлекает данные со страницы с помощью json.loads(), но у меня ограниченный объем данных, поскольку используемый мной запрос «get» не загружает всю страницу).
Использование «requests_html» у меня не работает: похоже, я не могу установить Chromium на свой компьютер, и у меня продолжают возникать проблемы с «асинхронными» функциями (которые я не знаю, для чего они нужны).
Я хочу подчеркнуть, что страница, из которой я хочу извлечь данные, уже открыта и полностью загружена (по крайней мере, до такой степени, что меня устраивает объем контента) в окне Firefox.
Может ли кто-нибудь мне помочь? Я не видел обновленного обсуждения этого вопроса, последние (немногие) были как минимум год назад; большинство из них родом из далекого прошлого (примерно 2014-2018 годов, и они говорят о модулях, которые уже не обновляются).

Подробнее здесь: https://stackoverflow.com/questions/797 ... on-without
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Javascript»