Python Scraping Maroof.SA: API -ключ несанкционированный (401) или содержание селена не загружаетсяPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Python Scraping Maroof.SA: API -ключ несанкционированный (401) или содержание селена не загружается

Сообщение Anonymous »

Я пытаюсь вырвать бизнес -данные с https://maroof.sa/businesses, чтобы собрать детали для более чем 70 000 предприятий. Мой процесс включает в себя два шага: сначала, собирая все бизнес -идентификаторы, а затем сбрасывание деталей с отдельных бизнес -страниц (https://maroof.sa/business/details/_ide}). Я сталкиваюсь с серьезными проблемами с первым шагом. < /P>
1. Проблема авторизации API (предпочтительный метод)
I определил внутреннюю конечную точку API (https://api.thiqah.sa/maroof/public/api ... ess/search), которая, по -видимому, обслуживает бизнес -данные. Просматривая сетевые запросы в браузере, я нашел Apikey, используемый в заголовках. Однако, когда я использую библиотеку запросов Python, чтобы запросить этот API с обнаруженным ключом, я постоянно получаю несанкционированную ошибку HTTP 401, указывая, что «вам не разрешено получить доступ к этому API». для внешнего использования? < /p>
2. Проблема загрузки контента селена (метод отступления)
Поскольку подход API в настоящее время заблокирован, я попытался скрепить все бизнес -идентификаторы непосредственно со основной страницы листинга (https://maroof.sa/businesses), используя нередометированную_чромскую и не Infinite Sclolling. Бизнес -списки), по -видимому, не загружается и не рендеринг при доступе через селен. После навигации на URL и ожидания продолжительных периодов, Driver.page_source в первую очередь содержит только раздел и начальные теги скрипта, а не динамически загруженные бизнес -данные. Следовательно, ни один бизнес-идентификаторы не собираются.
Вопрос: Какие усовершенствованные методы анти-бот могут привести к невыразительному_чромедриверу в случае отмены основного динамического содержания на https://maroof.sa/businesses? Каковы эффективные стратегии смягчения последствий для таких вопросов или конкретные взаимодействия браузера, необходимые для запуска загрузки контента?

Подробнее здесь: https://stackoverflow.com/questions/796 ... ent-not-lo
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»