Парсинг веб-страницы с использованием лямбды AWSPython

Программы на Python
Ответить
Anonymous
 Парсинг веб-страницы с использованием лямбды AWS

Сообщение Anonymous »

У меня возникли проблемы со сбором данных с помощью лямбда-выражения AWS.
Все, что я хочу сделать, это отправить мне один URL-адрес от клиента и получить Теги OG для этого URL-адреса.
Моя проблема в том, что он работал хорошо при локальном тестировании и не работал для одного конкретного сайта при развертывании. на лямбде AWS. (большая часть URL-адреса работала хорошо)
Я использовал пакет «curl_cffi» для запроса веб-страницы, затем добавил подробные заголовки (accept-language, user-agent, Priority, Accept, . ..) при фактической работе в моем браузере Chrome и бесплатных прокси.
Он успешно работал с моим локальным кодом, но когда я развертываю лямбда-версию AWS, сайт отправляет мне страницу с ошибкой( возможно, они знали Я бот). Я попробовал использовать драматурга вместо Curl_cffi, результат был тот же.
  • использовать прокси (платный)
  • управлять файлами cookie или сеанс
    Это правильные ответы, но мне интересно, есть ли более легкий вариант или я что-то упускаю.
Спасибо.

Подробнее здесь: https://stackoverflow.com/questions/793 ... aws-lambda
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»