Как парсить HTML, скрытый за JS-скриптами

Как парсить HTML, скрытый за JS-скриптами ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как парсить HTML, скрытый за JS-скриптами

Цитата

Сообщение Anonymous » 06 дек 2024, 00:52

У FCC есть база данных с подробной информацией о различных лицензиях на вещание. Многие из этих лицензий имеют такие страницы.
Большую часть данных на этих страницах (и связанных с ними) можно очень легко очистить с помощью комбинации стандартной библиотеки запросов и BeautifulSoup4. Вы просто парсите HTML, выбираете нужные данные, и все готово.
Я использовал тот же подход для извлечения этой таблицы спектра и рыночной площади (на фото ниже), но столкнулись с препятствием.
Таблица, которую я хочу извлечь со страницы
Хотя отдельные строки таблицы можно проверить с помощью инструментов разработки браузера, когда я очищаю HTML с помощью чего-то вроде это:

Код: Выделить всё

import requests

url = "https://wireless2.fcc.gov/UlsApp/UlsSearch/leasesList.jsp?licKey=2591153"
output_file = "license_page_leases.html"
response = requests.get(url)

with open(output_file, "w", encoding="utf-8") as file:
file.write(response.text)

... никакая часть самой таблицы не загружается - все, что я получаю, это javascript, который генерирует таблицу.
Итак, мой вопрос : как мне очистить данные в такой таблице?
Я пробовал разные подобные способы очистки этой таблицы.
Я также пытался выяснить, существует ли какая-то базовая структура запроса, которая позволила бы мне сделать запрос более подробно. напрямую в свою базу данных, но безуспешно.
Если есть очевидное решение, которое я упускаю, я бы хотел знать, но мне не обязательно, чтобы кто-то решил эту проблему я - Я здесь, потому что мне нужен совет, как исследовать эту структуру. Я не знаю, как это назвать, когда HTML-код генерируется на лету, поэтому сложно найти методы его получения.
Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/792 ... js-scripts

1733435579

Anonymous

У FCC есть база данных с подробной информацией о различных лицензиях на вещание. Многие из этих лицензий имеют такие страницы.
Большую часть данных на этих страницах (и связанных с ними) можно очень легко очистить с помощью комбинации стандартной библиотеки запросов и BeautifulSoup4. Вы просто парсите HTML, выбираете нужные данные, и все готово.
Я использовал тот же подход для извлечения этой таблицы спектра и рыночной площади (на фото ниже), но столкнулись с препятствием.
Таблица, которую я хочу извлечь со страницы
Хотя отдельные строки таблицы можно проверить с помощью инструментов разработки браузера, когда я очищаю HTML с помощью чего-то вроде это:
[code]import requests

url = "https://wireless2.fcc.gov/UlsApp/UlsSearch/leasesList.jsp?licKey=2591153"
output_file = "license_page_leases.html"
response = requests.get(url)

with open(output_file, "w", encoding="utf-8") as file:
file.write(response.text)
[/code]
... никакая часть самой таблицы не загружается - все, что я получаю, это javascript, который генерирует таблицу.
Итак, мой вопрос : [b]как мне очистить данные в такой таблице?[/b]
Я пробовал разные подобные способы очистки этой таблицы.
Я также пытался выяснить, существует ли какая-то базовая структура запроса, которая позволила бы мне сделать запрос более подробно. напрямую в свою базу данных, но безуспешно.
Если есть очевидное решение, которое я упускаю, я бы хотел знать, но мне не обязательно, чтобы кто-то решил эту проблему я - Я здесь, потому что мне нужен совет, как исследовать эту структуру. Я не знаю, как это назвать, когда HTML-код генерируется на лету, поэтому сложно найти методы его получения.
Спасибо! 

Подробнее здесь: [url]https://stackoverflow.com/questions/79248933/how-to-parse-html-hidden-behind-js-scripts[/url]