Я пытаюсь вырвать бизнес -данные с https://maroof.sa/businesses, чтобы собрать детали для более чем 70 000 предприятий. Мой процесс включает в себя два шага: сначала, собирая все бизнес -идентификаторы, а затем сбрасывание деталей с отдельных бизнес -страниц (https://maroof.sa/business/details/_ide}). Я сталкиваюсь с серьезными проблемами с первым шагом. < /P>
1. Проблема авторизации API (предпочтительный метод)
I определил внутреннюю конечную точку API (https://api.thiqah.sa/maroof/public/api ... ess/search), которая, по -видимому, обслуживает бизнес -данные. Просматривая сетевые запросы в браузере, я нашел Apikey, используемый в заголовках. Однако, когда я использую библиотеку запросов Python, чтобы запросить этот API с обнаруженным ключом, я постоянно получаю несанкционированную ошибку HTTP 401, указывая, что «вам не разрешено получить доступ к этому API». для внешнего использования? < /p>
2. Проблема загрузки контента селена (метод отступления)
Поскольку подход API в настоящее время заблокирован, я попытался скрепить все бизнес -идентификаторы непосредственно со основной страницы листинга (https://maroof.sa/businesses), используя нередометированную_чромскую и не Infinite Sclolling. Бизнес -списки), по -видимому, не загружается и не рендеринг при доступе через селен. После навигации на URL и ожидания продолжительных периодов, Driver.page_source в первую очередь содержит только раздел и начальные теги скрипта, а не динамически загруженные бизнес -данные. Следовательно, ни один бизнес-идентификаторы не собираются.
Вопрос: Какие усовершенствованные методы анти-бот могут привести к невыразительному_чромедриверу в случае отмены основного динамического содержания на https://maroof.sa/businesses? Каковы эффективные стратегии смягчения последствий для таких вопросов или конкретные взаимодействия браузера, необходимые для запуска загрузки контента?
Подробнее здесь: https://stackoverflow.com/questions/796 ... ent-not-lo
Python Scraping Maroof.SA: API -ключ несанкционированный (401) или содержание селена не загружается ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение