Рекурсивный поиск файлов на веб-сайте (Python) [закрыто]

Рекурсивный поиск файлов на веб-сайте (Python) [закрыто] ⇐ Html

1 сообщение • Страница 1 из 1

Anonymous

Рекурсивный поиск файлов на веб-сайте (Python) [закрыто]

Цитата

Сообщение Anonymous » 03 янв 2025, 23:52

Я пытаюсь подтвердить, возможно ли рекурсивно выполнять поиск по веб-сайту, включая ссылки на веб-сайт (подстраницы), и загружать файлы по ссылкам, встроенным в подстраницы. В качестве базового теста я пытаюсь определить, как проверить наличие PDF-файлов на следующем веб-сайте (https://file-examples.com/index.php/sam ... -download/) и иметь возможность загружать эти PDF-файлы по соответствующим ссылкам.
Я чувствую, что это должно быть возможно с использованием запросов и библиотек BeautifulSoup в Python, но, похоже, не могу этого понять. Вот код, который я использую, чтобы попытаться сохранить PDF-файлы локально:
import shutil
from bs4 import BeautifulSoup
import requests
import os
from urllib.parse import urlparse

url = 'https://file-examples.com/index.php/sam ... -download/'
for page in range(2):
r = requests.get(url.format(page))
soup = BeautifulSoup(r.content, "html.parser")
for link in soup.select("h3[class='sv-card-title']>a"):
r = requests.get(link.get("href"), stream=True)
r.raw.decode_content = True
with open(link.text+'.pdf', 'wb') as f:
shutil.copyfileobj(r.raw, f)

Подробнее здесь: https://stackoverflow.com/questions/793 ... ite-python

1735937555

Anonymous

Я пытаюсь подтвердить, возможно ли рекурсивно выполнять поиск по веб-сайту, включая ссылки на веб-сайт (подстраницы), и загружать файлы по ссылкам, встроенным в подстраницы.  В качестве базового теста я пытаюсь определить, как проверить наличие PDF-файлов на следующем веб-сайте (https://file-examples.com/index.php/sample-documents-download/sample-pdf-download/) и иметь возможность загружать эти PDF-файлы по соответствующим ссылкам.
Я чувствую, что это должно быть возможно с использованием запросов и библиотек BeautifulSoup в Python, но, похоже, не могу этого понять.  Вот код, который я использую, чтобы попытаться сохранить PDF-файлы локально:
import shutil
from bs4 import BeautifulSoup
import requests
import os
from urllib.parse import urlparse

url = 'https://file-examples.com/index.php/sample-documents-download/sample-pdf-download/'
for page in range(2):
r = requests.get(url.format(page))
soup = BeautifulSoup(r.content, "html.parser")
for link in soup.select("h3[class='sv-card-title']>a"):
r = requests.get(link.get("href"), stream=True)
r.raw.decode_content = True
with open(link.text+'.pdf', 'wb') as f:
shutil.copyfileobj(r.raw, f)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79327502/recursively-search-files-in-website-python[/url]