Я работаю над проектом очистки веб-страниц, и мне нужно извлечь список URL-адресов магазинов со следующей страницы: [зак

Я работаю над проектом очистки веб-страниц, и мне нужно извлечь список URL-адресов магазинов со следующей страницы: [зак ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Я работаю над проектом очистки веб-страниц, и мне нужно извлечь список URL-адресов магазинов со следующей страницы: [зак

Цитата

Сообщение Anonymous » 22 ноя 2025, 00:52

Я работаю над проектом парсинга веб-страниц, и мне нужно извлечь список URL-адресов магазинов со следующей страницы:
https://maroof.sa/businesses
Однако я столкнулся с трудностями при получении данных. Вот что я пробовал на данный момент:
1. Использование Requests + BeautifulSoup
Я попытался получить HTML-код и проанализировать его с помощью BeautifulSoup, но URL-адреса магазина отсутствуют в исходном источнике страницы. Кажется, контент загружается динамически, и мне не удалось найти статические теги или классы, содержащие ссылки на магазин.
2. Использование Selenium
Я попробовал использовать Selenium, чтобы дождаться, пока страница полностью отобразит контент, сгенерированный JavaScript. Проблема в том, что я все еще не мог найти элементы, содержащие бизнес-ссылки, даже после ожидания полной загрузки страницы и прокрутки вниз для запуска отложенной загрузки.
Что я прошу
Мне нужно руководство, как правильно извлечь бизнес-URL с этой страницы.

Мои конкретные вопросы:

Откуда именно загружаются URL-адреса магазина?
Какой сетевой запрос или конечная точка API отвечает за получение списка компаний?
Какой метод рекомендуется эффективно очищать эти URL-адреса?

Цель
Получить чистый список корпоративных URL-адресов, например:

Код: Выделить всё

Примечания

[*]Я не пытаюсь обойти аутентификацию или очистить защищенный контент.

[*]Только нужна помощь в определении правильного запроса/конечной точки или метода очистки.

[*]Пример минимального кода приветствуется.

Подробнее здесь: https://stackoverflow.com/questions/798 ... store-urls

1763761936

Anonymous

Я работаю над проектом парсинга веб-страниц, и мне нужно извлечь список URL-адресов магазинов со следующей страницы:
[b]https://maroof.sa/businesses[/b]
Однако я столкнулся с трудностями при получении данных. Вот что я пробовал на данный момент:
1. [b]Использование Requests + BeautifulSoup[/b]
Я попытался получить HTML-код и проанализировать его с помощью BeautifulSoup, но URL-адреса магазина отсутствуют в исходном источнике страницы. Кажется, контент загружается динамически, и мне не удалось найти статические теги или классы, содержащие ссылки на магазин.
2. [b]Использование Selenium[/b]
Я попробовал использовать Selenium, чтобы дождаться, пока страница полностью отобразит контент, сгенерированный JavaScript. Проблема в том, что я все еще не мог найти элементы, содержащие бизнес-ссылки, даже после ожидания полной загрузки страницы и прокрутки вниз для запуска отложенной загрузки.
[b]Что я прошу[/b]
Мне нужно руководство, [b]как правильно извлечь бизнес-URL[/b] с этой страницы.

Мои конкретные вопросы:
[list]
[*]Откуда именно загружаются URL-адреса магазина?

[*]Какой сетевой запрос или конечная точка API отвечает за получение списка компаний?

[*]Какой метод рекомендуется эффективно очищать эти URL-адреса?

[/list]
[b]Цель[/b]
Получить чистый список корпоративных URL-адресов, например:
[code][/code]
[b]Примечания[/b]

[*]Я не пытаюсь обойти аутентификацию или очистить защищенный контент.

[*]Только нужна помощь в определении правильного запроса/конечной точки или метода очистки.

[*]Пример минимального кода приветствуется.

 

Подробнее здесь: [url]https://stackoverflow.com/questions/79826950/im-working-on-a-web-scraping-project-and-need-to-extract-the-list-of-store-urls[/url]