Как учитывать различные задержки сканирования при циклическом просмотре массива URL-адресов? - Цифровое Кемерово

Как учитывать различные задержки сканирования при циклическом просмотре массива URL-адресов? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как учитывать различные задержки сканирования при циклическом просмотре массива URL-адресов?

Цитата

Сообщение Anonymous » 02 ноя 2024, 14:00

В модулях urllib3 или Requests и при использовании ThreadPoolExecutor из concurrent.futures, как я могу учитывать различные задержки сканирования при циклическом просмотре массива URL-адресов?
В приведенном ниже примере первые три URL-адреса принадлежат одному и тому же серверу и имеют одинаковую задержку сканирования (поэтому после очистки одной страницы я не могу сделать другой запрос на ту же или другую страницу на том же сервере до истечения периода задержки).
Другие URL-адреса находятся на разных серверах и должны учитывать другую задержку сканирования или ее отсутствие.
urls = [
"https://news.ycombinator.com/", #Crawl-Delay 30
"https://news.ycombinator.com/?p=2", #Crawl-Delay 30
"https://news.ycombinator.com/?p=3", #Crawl-Delay 30
"https://www.infoworld.com/", #Crawl-Delay None
"https://www.theregister.com", #Crawl-Delay 5
]

Вот выдержка из кода, который я использую:
from concurrent.futures import ThreadPoolExecutor, as_completed
import requests
from bs4 import BeautifulSoup

def fetch_url(url):
response = requests.get(url)
data = response.content
return BeautifulSoup(data, "lxml")

def main():
with ThreadPoolExecutor(max_workers=10) as executor:
futures = {executor.submit(fetch_url, url): url for url in urls}

for future in as_completed(futures):
url = futures[future]
try:
soup = future.result()
except Exception as e:
print(f"Error processing {url}: {e}")

Подробнее здесь: https://stackoverflow.com/questions/791 ... -url-array

Реклама

1730545214

Anonymous

В модулях urllib3 или Requests и при использовании ThreadPoolExecutor из concurrent.futures, как я могу учитывать различные задержки сканирования при циклическом просмотре массива URL-адресов?
В приведенном ниже примере первые три URL-адреса принадлежат одному и тому же серверу и имеют одинаковую задержку сканирования (поэтому после очистки одной страницы я не могу сделать другой запрос на ту же или другую страницу на том же сервере до истечения периода задержки).
Другие URL-адреса находятся на разных серверах и должны учитывать другую задержку сканирования или ее отсутствие.
urls = [
"https://news.ycombinator.com/",      #Crawl-Delay 30
"https://news.ycombinator.com/?p=2",  #Crawl-Delay 30
"https://news.ycombinator.com/?p=3",  #Crawl-Delay 30
"https://www.infoworld.com/",         #Crawl-Delay None
"https://www.theregister.com",        #Crawl-Delay 5
]

Вот выдержка из кода, который я использую:
from concurrent.futures import ThreadPoolExecutor, as_completed
import requests
from bs4 import BeautifulSoup

def fetch_url(url):
response = requests.get(url)
data = response.content
return BeautifulSoup(data, "lxml")

def main():
with ThreadPoolExecutor(max_workers=10) as executor:
futures = {executor.submit(fetch_url, url): url for url in urls}

for future in as_completed(futures):
url = futures[future]
try:
soup = future.result()
except Exception as e:
print(f"Error processing {url}: {e}")
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79144243/how-to-respect-different-crawl-delays-while-looping-through-url-array[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как учитывать различные задержки сканирования при циклическом просмотре массива URL-адресов?

Последнее сообщение Anonymous « 31 окт 2024, 12:54
Добавлено в форуме Python

Anonymous » 31 окт 2024, 12:54 » в форуме Python

В модулях urllib3 или Requests и при использовании ThreadPoolExecutor из concurrent.futures, как я могу учитывать различные задержки сканирования при циклическом просмотре массива URL-адресов?
В приведенном ниже примере первые три URL-адреса...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
31 окт 2024, 12:54
Как учитывать различные задержки сканирования при циклическом просмотре массива URL-адресов?

Последнее сообщение Anonymous « 31 окт 2024, 16:04
Добавлено в форуме Python

Anonymous » 31 окт 2024, 16:04 » в форуме Python

В модулях urllib3 или Requests и при использовании ThreadPoolExecutor из concurrent.futures, как я могу учитывать различные задержки сканирования при циклическом просмотре массива URL-адресов?
В приведенном ниже примере первые три URL-адреса...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
31 окт 2024, 16:04
Python - сначала получите ответ 200, затем 401 при циклическом переборе URL-адресов с помощью Request.get()

Последнее сообщение Anonymous « 07 дек 2023, 12:51
Добавлено в форуме Python

Anonymous » 07 дек 2023, 12:51 » в форуме Python

Я собираю данные игр НХЛ для нескольких игр (все они находятся по разным URL-адресам) с помощью Request.get(). Код работает нормально, и я могу получить данные и получить ответ = 200, но когда я перебираю URL-адреса, используя уникальные...

0 Ответы

51 Просмотры

Последнее сообщение Anonymous
07 дек 2023, 12:51
ОШИБКА: Ошибка сканирования Checkmarx: нет файлов для сканирования в Jenkins во время сканирования CxSAST

Последнее сообщение Anonymous « 23 май 2024, 11:01
Добавлено в форуме JAVA

Anonymous » 23 май 2024, 11:01 » в форуме JAVA

Я пытаюсь запустить сканирование Checkmarx в разделе после сборки Jenkins.

В моем задании jenkins следующие шаги -->

1-й) Получение исходного кода из SVN Connection to Checkmarx прошел успешно.

2-й) Сборка кода с использованием Maven --- Шаги 1 и...

0 Ответы

60 Просмотры

Последнее сообщение Anonymous
23 май 2024, 11:01
ОШИБКА: Ошибка сканирования Checkmarx: нет файлов для сканирования в Jenkins во время сканирования CxSAST

Последнее сообщение Anonymous « 21 сен 2024, 19:03
Добавлено в форуме JAVA

Anonymous » 21 сен 2024, 19:03 » в форуме JAVA

Я пытаюсь запустить сканирование Checkmarx в разделе после сборки Jenkins.

В моем задании jenkins этапы -->

1-й) Получение исходного кода из SVN Connection to Checkmarx прошел успешно.

2-й) Сборка кода с использованием Maven --- Шаги 1 и 2...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
21 сен 2024, 19:03

Вернуться в «Python»

Programmiererforum