Я пытаюсь подтвердить, возможно ли рекурсивно выполнять поиск по веб-сайту, включая ссылки на веб-сайт (подстраницы), и загружать файлы по ссылкам, встроенным в подстраницы. В качестве базового теста я пытаюсь определить, как проверить наличие PDF-файлов на следующем веб-сайте (https://file-examples.com/index.php/sam ... -download/) и иметь возможность загружать эти PDF-файлы по соответствующим ссылкам.
Я чувствую, что это должно быть возможно с использованием запросов и библиотек BeautifulSoup в Python, но, похоже, не могу этого понять. Вот код, который я использую, чтобы попытаться сохранить PDF-файлы локально:
import shutil
from bs4 import BeautifulSoup
import requests
import os
from urllib.parse import urlparse
url = 'https://file-examples.com/index.php/sam ... -download/'
for page in range(2):
r = requests.get(url.format(page))
soup = BeautifulSoup(r.content, "html.parser")
for link in soup.select("h3[class='sv-card-title']>a"):
r = requests.get(link.get("href"), stream=True)
r.raw.decode_content = True
with open(link.text+'.pdf', 'wb') as f:
shutil.copyfileobj(r.raw, f)
Подробнее здесь: https://stackoverflow.com/questions/793 ... ite-python
Рекурсивный поиск файлов на веб-сайте (Python) ⇐ Html
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Рекурсивный поиск различий между двумя многомерными массивами со строгой проверкой типов.
Anonymous » » в форуме Php - 0 Ответы
- 23 Просмотры
-
Последнее сообщение Anonymous
-