Как соскрести PDF -файлы из списка веб -сайтов и субдоменов, не попав в CAPTCHA? (R, Python)

Как соскрести PDF -файлы из списка веб -сайтов и субдоменов, не попав в CAPTCHA? (R, Python) ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как соскрести PDF -файлы из списка веб -сайтов и субдоменов, не попав в CAPTCHA? (R, Python)

Цитата

Сообщение Anonymous » 02 май 2025, 19:48

Вопрос: < /h1>
Мне нужно собирать ссылки на файлы PDF (программа курса) с университетских сайтов. У меня есть большой список базовых доменов, таких как:

[*]https://university-a.com
[*]http://www.institute-du> />https://edu-c.example.org> />cabinet.institute-b.edu ;
[*] info.edu-c.example.org> Пробое: < /p>
Поиск через Bing и Duckduckgo < /h2>
Я сформировал запросы, такие как: < /p>

Код: Выделить всё

query 
 Что я хочу понять: < /h1>
Есть ли надежный способ поиска и извлечения ссылок PDF из доменов и их субдомен: < /p>

 без нажатия Captcha или < /p>

. или
 Использование поисковых систем вообще?> 

Подробнее здесь: [url]https://stackoverflow.com/questions/79603791/how-to-scrape-pdf-files-from-the-list-of-websites-and-subdomains-without-hitting[/url]

1746204524

Anonymous

 Вопрос: < /h1>
Мне нужно собирать ссылки на файлы PDF (программа курса) с университетских сайтов. У меня есть большой список базовых доменов, таких как: 

[*]https://university-a.com
[*]http://www.institute-du> />https://edu-c.example.org> />cabinet.institute-b.edu ;
[*] info.edu-c.example.org> Пробое: < /p>
 Поиск через Bing и Duckduckgo < /h2>
Я сформировал запросы, такие как: < /p>
[code]query 
 Что я хочу понять: < /h1>
Есть ли надежный способ поиска и извлечения ссылок PDF из доменов и их субдомен: < /p>

 без нажатия Captcha или < /p>

. или
 Использование поисковых систем вообще?> 

Подробнее здесь: [url]https://stackoverflow.com/questions/79603791/how-to-scrape-pdf-files-from-the-list-of-websites-and-subdomains-without-hitting[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как соскрести полный текст статьи с таких сайтов, как MoneyControl, Standland, Economic Times (обход 403/доступа отказан

Последнее сообщение Anonymous « 25 июн 2025, 21:44
Добавлено в форуме Python

Anonymous » 25 июн 2025, 21:44 » в форуме Python

Я строю модель анализа настроений, используя финансовые новостные статьи в Python. />

Я использую Playwright в режиме без головы, чтобы снять текст тела статьи по каждой ссылке. Но я сталкиваюсь с такими проблемами, как:

401...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
25 июн 2025, 21:44
Как реализовать простой вход на несколько сайтов и общую панель администратора в Laravel для веб-сайтов электронной комм

Последнее сообщение Anonymous « 20 сен 2024, 13:02
Добавлено в форуме Php

Anonymous » 20 сен 2024, 13:02 » в форуме Php

У меня есть веб-сайт, созданный с помощью Laravel для электронной коммерции. Теперь мне нужно создать два дополнительных веб-сайта:
Веб-сайт для проведения мероприятий
Система управления обучением (LMS)
Требования:
Все три веб-сайта (электронная...

0 Ответы

64 Просмотры

Последнее сообщение Anonymous
20 сен 2024, 13:02
MX Lookup запрос для разрешения всех субдоменов

Последнее сообщение Anonymous « 28 янв 2025, 17:53
Добавлено в форуме Php

Anonymous » 28 янв 2025, 17:53 » в форуме Php

Я ищу по проблеме, с которой я сталкиваюсь, я предполагаю, у меня есть доменное имя abhinav.com , а мой почтовый адрес [email protected] .

Но я хочу, чтобы, если кто -то набрает электронное письмо, например, «[email protected]» и...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
28 янв 2025, 17:53
Невозможно подключиться к Кафке, попав в продюсер, в докере-композите

Последнее сообщение Anonymous « 23 апр 2025, 14:18
Добавлено в форуме JAVA

Anonymous » 23 апр 2025, 14:18 » в форуме JAVA

Это мой docker-compose.yml
version: '3.8'

services:
parking_service:
build:
context: .
ports:
- 8081:8081
depends_on:
postgres:
condition: service_healthy
kafka:
condition: service_healthy
environment:
- DB_HOST=postgres
-...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
23 апр 2025, 14:18
Как я могу реализовать аудио-считыватель CAPTCHA с помощью django-simple-captcha в Django?

Последнее сообщение Anonymous « 24 апр 2024, 06:19
Добавлено в форуме Python

Anonymous » 24 апр 2024, 06:19 » в форуме Python

Я хочу повысить доступность своего веб-приложения Django, интегрировав средство чтения аудиоCAPTCHA вместе с текстовым CAPTCHA, предоставляемым django-simple-captcha. Хотя текстовая CAPTCHA эффективна для большинства пользователей, у некоторых...

0 Ответы

55 Просмотры

Последнее сообщение Anonymous
24 апр 2024, 06:19

Вернуться в «Python»