Я пытаюсь, без какой-либо причины, кроме личного удовлетворения, парсить некоторые веб-сайты с бесконечной прокруткой, используя Python (я думаю, они работают с JavaScript, но я не знаю, что это такое, это то, что я предполагаю, просматривая множество страниц на этом веб-сайте - Instagram - это веб-сайт, который я пробовал, с общедоступными профилями, но он такой же, как YouTube).
Я не хочу использовать Selenium, так как я не знаю, что он делает, и не знаю, могу ли я ему доверять — и я не знаю многого о нем.
Мне удается добраться до определенной страницы и загрузить ее настолько глубоко, насколько я хочу, используя Python, но я не могу получить HTML-коды страницы, из которых я мог бы получить все содержимое внутри страницы (извините, если я говорю что-то неправильно, я вообще не эксперт в этом). По крайней мере, я думаю, что это HTML: рабочий код для ограниченных данных (из-за отсутствия загрузки страницы) работает с командой "httpx.Client().get({url})" из "import httpx" и обрабатывается с помощью "json.loads()" из "import json".
То, что мне сейчас нужно, это чем-то заменить команду Selenium. «{webdriver.Firefox().}page_source», из которого я получал данные для анализа с помощью beautifulsoup4. Я также не могу использовать Selenium, потому что, когда я выполняю код, браузер открывается другим способом (не с помощью веб-драйвера Selenium, что, похоже, вызывает у меня некоторые проблемы) (я также не могу найти исходный код Selenium).
В противном случае мне понадобится что-то (скорее всего, что-то вроде запроса «get»), чтобы получить данные со страницы, которую я загрузил, которая затем будет обработана с помощью «json.loads()» из «import json» (я у меня есть рабочий код, который извлекает данные со страницы с помощью json.loads(), но у меня ограниченный объем данных, поскольку используемый мной запрос «get» не загружает всю страницу).
Использование «requests_html» у меня не работает: похоже, я не могу установить Chromium на свой компьютер, и у меня продолжают возникать проблемы с «асинхронными» функциями (которые я не знаю, для чего они нужны).
Я хочу подчеркнуть, что страница, из которой я хочу извлечь данные, уже открыта и полностью загружена (по крайней мере, до такой степени, что меня устраивает объем контента) в окне Firefox.
Может ли кто-нибудь мне помочь? Я не видел обновленного обсуждения этого вопроса, последние (немногие) были как минимум год назад; большинство из них родом из далекого прошлого (примерно 2014-2018 годов, и они говорят о модулях, которые уже не обновляются).
Подробнее здесь: https://stackoverflow.com/questions/797 ... on-without
Запрос HTML открытой загруженной страницы (с бесконечной прокруткой) в Python без Selenium ⇐ Javascript
Форум по Javascript
1759881592
Anonymous
Я пытаюсь, без какой-либо причины, кроме личного удовлетворения, парсить некоторые веб-сайты с бесконечной прокруткой, используя [b]Python[/b] (я думаю, они работают с JavaScript, но я не знаю, что это такое, это то, что я предполагаю, просматривая множество страниц на этом веб-сайте - Instagram - это веб-сайт, который я пробовал, с общедоступными профилями, но он такой же, как YouTube).
Я не хочу использовать Selenium, так как я не знаю, что он делает, и не знаю, могу ли я ему доверять — и я не знаю многого о нем.
Мне удается добраться до определенной страницы и загрузить ее настолько глубоко, насколько я хочу, используя Python, но я не могу получить HTML-коды страницы, из которых я мог бы получить все содержимое внутри страницы (извините, если я говорю что-то неправильно, я вообще не эксперт в этом). По крайней мере, я думаю, что это HTML: рабочий код для ограниченных данных (из-за отсутствия загрузки страницы) работает с командой "httpx.Client().get({url})" из "import httpx" и обрабатывается с помощью "json.loads()" из "import json".
То, что мне сейчас нужно, это чем-то заменить команду Selenium. «{webdriver.Firefox().}page_source», из которого я получал данные для анализа с помощью beautifulsoup4. Я также не могу использовать Selenium, потому что, когда я выполняю код, браузер открывается другим способом (не с помощью веб-драйвера Selenium, что, похоже, вызывает у меня некоторые проблемы) (я также не могу найти исходный код Selenium).
В противном случае мне понадобится что-то (скорее всего, что-то вроде запроса «get»), чтобы получить данные со страницы, которую я загрузил, которая затем будет обработана с помощью «json.loads()» из «import json» (я у меня есть рабочий код, который извлекает данные со страницы с помощью json.loads(), но у меня ограниченный объем данных, поскольку используемый мной запрос «get» не загружает всю страницу).
Использование «requests_html» у меня не работает: похоже, я не могу установить Chromium на свой компьютер, и у меня продолжают возникать проблемы с «асинхронными» функциями (которые я не знаю, для чего они нужны).
Я хочу подчеркнуть, что страница, из которой я хочу извлечь данные, уже открыта и полностью загружена (по крайней мере, до такой степени, что меня устраивает объем контента) в окне Firefox.
Может ли кто-нибудь мне помочь? Я не видел обновленного обсуждения этого вопроса, последние (немногие) были как минимум год назад; большинство из них родом из далекого прошлого (примерно 2014-2018 годов, и они говорят о модулях, которые уже не обновляются).
Подробнее здесь: [url]https://stackoverflow.com/questions/79784963/requesting-html-of-open-loaded-page-with-infinite-scrolling-in-python-without[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия