Сложность очистки HTML-страницы с динамически генерируемого веб-сайта с помощью Python.Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Сложность очистки HTML-страницы с динамически генерируемого веб-сайта с помощью Python.

Сообщение Anonymous »

Я пытаюсь получить некоторые данные с веб-сайта с помощью Python. Кажется, что веб-сайт генерирует свой контент с помощью Javascript, поэтому я не могу использовать стандартную библиотеку запросов. Я попробовал модуль Requests-html и Selenium, которые оба обрабатывают содержимое JavaScript, но проблема в том, что я все еще не могу получить HTML-страницу этого веб-сайта. Я ожидаю увидеть то же самое, что и при просмотре страницы в браузере. На мгновение я четко вижу всю информацию об открытых позициях. Но когда я получаю исходный код страницы с помощью запросов-html или Selenium, я получаю страницу без какой-либо информации об открытой позиции.
Например, если я хочу получить имя открытой позиции позиции, он находится в диапазоне с классом «ais-Highlight-nonHighlighted». Я вижу это в своем браузере, но не могу получить эти данные с помощью Python.

HTML-страница при проверке через браузер, показывающая данные для получения (название должности)
Я хочу получить HTML-код веб-страницы, как и запросы, а затем обработать его с помощью BeautifulSoup.
Я пробовал с запросами — html :

Код: Выделить всё

from requests_html import HTMLSession
url = "https://www.lvmh.com/en/join-us/our-job-offers?PRD-en-us-timestamp-desc%5BrefinementList%5D%5Bmaison%5D%5B0%5D=Kendo"

session = HTMLSession()
r = session.get(url)
r.html.render(wait=5)

print(r.html.html)
print(r.html.text)
print(r.text)
job_name = r.html.find('.ais-Highlight-nonHighlighted')

session.close()
--> print не отображает название должности, а имя_работы пустое.
Я пробовал с Selenium:< /p>

Код: Выделить всё

from selenium import webdriver
from selenium.webdriver.common.by import By
url = "https://www.lvmh.com/en/join-us/our-job-offers?PRD-en-us-timestamp-desc%5BrefinementList%5D%5Bmaison%5D%5B0%5D=Kendo"

driver = webdriver.Safari()
driver.get(url)

data_source = driver.page_source
data_execute = driver.execute_script("return document.body.innerHTML")

driver.quit()
--> data_source и data_execute не включают название должности
Ничего не помогло... если кто-нибудь может мне в этом помочь, так и будет будь благодарен.

Подробнее здесь: https://stackoverflow.com/questions/791 ... ith-python
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»