Сложность очистки HTML-страницы с динамически генерируемого веб-сайта с помощью Python.

Сложность очистки HTML-страницы с динамически генерируемого веб-сайта с помощью Python. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Сложность очистки HTML-страницы с динамически генерируемого веб-сайта с помощью Python.

Цитата

Сообщение Anonymous » 27 окт 2024, 18:32

Я пытаюсь получить некоторые данные с веб-сайта с помощью Python. Кажется, что веб-сайт генерирует свой контент с помощью Javascript, поэтому я не могу использовать стандартную библиотеку запросов. Я попробовал модуль Requests-html и Selenium, которые оба обрабатывают содержимое JavaScript, но проблема в том, что я все еще не могу получить HTML-страницу этого веб-сайта.

https ://www.lvmh.com/en/join-us/our-job-offers? ... 0%5D=Кендо

Я ожидаю увидеть то же самое, что и при просмотре страницы в браузере. На мгновение я четко вижу всю информацию об открытых позициях. Но когда я получаю исходный код страницы с помощью запросов-html или Selenium, я получаю страницу без какой-либо информации об открытой позиции.
Например, если я хочу получить имя открытой позиции позиции, он находится в диапазоне с классом «ais-Highlight-nonHighlighted». Я вижу это в своем браузере, но не могу получить эти данные с помощью Python.

HTML-страница при проверке через браузер, показывающая данные для получения (название должности)
Я хочу получить HTML-код веб-страницы, как и запросы, а затем обработать его с помощью BeautifulSoup.
Я пробовал с запросами — html :

Код: Выделить всё

from requests_html import HTMLSession
url = "https://www.lvmh.com/en/join-us/our-job-offers?PRD-en-us-timestamp-desc%5BrefinementList%5D%5Bmaison%5D%5B0%5D=Kendo"

session = HTMLSession()
r = session.get(url)
r.html.render(wait=5)

print(r.html.html)
print(r.html.text)
print(r.text)
job_name = r.html.find('.ais-Highlight-nonHighlighted')

session.close()

--> print не отображает название должности, а имя_работы пустое.
Я пробовал с Selenium:< /p>

Код: Выделить всё

from selenium import webdriver
from selenium.webdriver.common.by import By
url = "https://www.lvmh.com/en/join-us/our-job-offers?PRD-en-us-timestamp-desc%5BrefinementList%5D%5Bmaison%5D%5B0%5D=Kendo"

driver = webdriver.Safari()
driver.get(url)

data_source = driver.page_source
data_execute = driver.execute_script("return document.body.innerHTML")

driver.quit()

--> data_source и data_execute не включают название должности
Ничего не помогло... если кто-нибудь может мне в этом помочь, так и будет будь благодарен.

Подробнее здесь: https://stackoverflow.com/questions/791 ... ith-python

1730043126

Anonymous

Я пытаюсь получить некоторые данные с веб-сайта с помощью Python. Кажется, что веб-сайт генерирует свой контент с помощью Javascript, поэтому я не могу использовать стандартную библиотеку запросов. Я попробовал модуль Requests-html и Selenium, которые оба обрабатывают содержимое JavaScript, но проблема в том, что я все еще не могу получить HTML-страницу этого веб-сайта.
[list]
[*]https ://www.lvmh.com/en/join-us/our-job-offers?PRD-en-us-timestamp-desc%5BrefinementList%5D%5Bmaison%5D%5B0%5D=Кендо
[/list]
Я ожидаю увидеть то же самое, что и при просмотре страницы в браузере. На мгновение я четко вижу всю информацию об открытых позициях. Но когда я получаю исходный код страницы с помощью запросов-html или Selenium, я получаю страницу без какой-либо информации об открытой позиции.
Например, если я хочу получить имя открытой позиции позиции, он находится в диапазоне с классом «ais-Highlight-nonHighlighted». Я вижу это в своем браузере, но не могу получить эти данные с помощью Python.

HTML-страница при проверке через браузер, показывающая данные для получения (название должности)
Я хочу получить HTML-код веб-страницы, как и запросы, а затем обработать его с помощью BeautifulSoup.
[b]Я пробовал с запросами — html :[/b]
[code]from requests_html import HTMLSession
url = "https://www.lvmh.com/en/join-us/our-job-offers?PRD-en-us-timestamp-desc%5BrefinementList%5D%5Bmaison%5D%5B0%5D=Kendo"

session = HTMLSession()
r = session.get(url)
r.html.render(wait=5)

print(r.html.html)
print(r.html.text)
print(r.text)
job_name = r.html.find('.ais-Highlight-nonHighlighted')

session.close()
[/code]
--> print не отображает название должности, а имя_работы пустое.
[b]Я пробовал с Selenium:[/b]< /p>
[code]from selenium import webdriver
from selenium.webdriver.common.by import By
url = "https://www.lvmh.com/en/join-us/our-job-offers?PRD-en-us-timestamp-desc%5BrefinementList%5D%5Bmaison%5D%5B0%5D=Kendo"

driver = webdriver.Safari()
driver.get(url)

data_source = driver.page_source
data_execute = driver.execute_script("return document.body.innerHTML")

driver.quit()
[/code]
--> data_source и data_execute не включают название должности
Ничего не помогло... если кто-нибудь может мне в этом помочь, так и будет будь благодарен. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79130783/difficulty-to-scrape-html-page-from-a-dynamic-generated-website-with-python[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Сложность очистки HTML-страницы с динамически генерируемого веб-сайта с помощью Python.

Последнее сообщение Anonymous « 27 окт 2024, 17:33
Добавлено в форуме Python

Anonymous » 27 окт 2024, 17:33 » в форуме Python

Я пытаюсь получить некоторые данные с веб-сайта с помощью Python. Кажется, что веб-сайт генерирует свой контент с помощью Javascript, поэтому я не могу использовать стандартную библиотеку запросов. Я попробовал модуль Requests-html и Selenium,...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
27 окт 2024, 17:33
Как оптимизировать веб-скрапинг сайта ASPX с помощью динамически генерируемого всплывающего окна

Последнее сообщение Anonymous « 30 окт 2024, 13:10
Добавлено в форуме Python

Anonymous » 30 окт 2024, 13:10 » в форуме Python

У меня есть сайт aspx, на котором есть форма, и когда вы ее заполняете, появляется всплывающее окно с html-таблицей, которую я хочу очистить. Всплывающее окно создается динамически, как в формате www.xyz.com/something/something/ Temp...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
30 окт 2024, 13:10
Заглушки Python для динамически генерируемого класса

Последнее сообщение Anonymous « 06 дек 2024, 15:08
Добавлено в форуме Python

Anonymous » 06 дек 2024, 15:08 » в форуме Python

У меня есть класс, который создается динамически на основе словаря: выходные данные представляют собой дерево, в котором каждый лист является объектом класса Item. Каждый элемент может иметь 0 или несколько дочерних элементов (другие элементы)....

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
06 дек 2024, 15:08
Не могу найти «генерируемого плугингартара» в области

Последнее сообщение Anonymous « 08 май 2025, 00:49
Добавлено в форуме IOS

Anonymous » 08 май 2025, 00:49 » в форуме IOS

Я не знаком с Flutter, но я пытаюсь развернуть проект Flutter. I initially got error from the awesome_notifications so I updated some packages in the pubspec.yaml file and now got an error that states
`Swift Compiler Error (Xcode): Cannot find...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
08 май 2025, 00:49
Неожиданный элемент обертки при использовании CXF -генерируемого клиента

Последнее сообщение Anonymous « 04 июл 2025, 01:00
Добавлено в форуме JAVA

Anonymous » 04 июл 2025, 01:00 » в форуме JAVA

Я сгенерировал клиента для веб -сервиса, используя WSDL2Java CXF.May 22, 2013 3:44:46 PM org.apache.cxf.service.factory.ReflectionServiceFactoryBean buildServiceFromWSDL
INFO: Creating Service { from WSDL:...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
04 июл 2025, 01:00

Вернуться в «Python»