Как соскрести PDF -файлы из списка веб -сайтов и субдоменов, не попав в CAPTCHA? (R, Python)Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как соскрести PDF -файлы из списка веб -сайтов и субдоменов, не попав в CAPTCHA? (R, Python)

Сообщение Anonymous »

Вопрос: < /h1>
Мне нужно собирать ссылки на файлы PDF (программа курса) с университетских сайтов. У меня есть большой список базовых доменов, таких как:

[*]https://university-a.com
[*]http://www.institute-du> />https://edu-c.example.org> />cabinet.institute-b.edu ;
[*] info.edu-c.example.org> Пробое: < /p>
Поиск через Bing и Duckduckgo < /h2>
Я сформировал запросы, такие как: < /p>

Код: Выделить всё

query 
 Что я хочу понять: < /h1>
Есть ли надежный способ поиска и извлечения ссылок PDF из доменов и их субдомен: < /p>

 без нажатия Captcha или < /p>

. или
 Использование поисковых систем вообще?> 

Подробнее здесь: [url]https://stackoverflow.com/questions/79603791/how-to-scrape-pdf-files-from-the-list-of-websites-and-subdomains-without-hitting[/url]
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»