Requests.get () по -прежнему висит, несмотря на тайм -аут - как заставить жесткое отсечение на медленных/сломанных URL? - Цифровое Кемерово

Requests.get () по -прежнему висит, несмотря на тайм -аут - как заставить жесткое отсечение на медленных/сломанных URL? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Requests.get () по -прежнему висит, несмотря на тайм -аут - как заставить жесткое отсечение на медленных/сломанных URL?

Цитата

Сообщение Anonymous » 09 июн 2025, 16:21

Я работаю над сценарием, который запросит URL -адреса набора данных (CSV, JSON, PDF, HTML, иногда XML) из конечной точки Sparql Sparql. CSVS).
Однако, несмотря на тайм -аут , скрипт по -прежнему висит - без исключений, без вывода и отсутствия прогресса.
Я подозреваю некоторые конечные точки (особенно. бесконечно . Мне нужен жесткий срез - если нет ответа, например, 15 секунд, скрипт должен продолжаться без блокировки.
import requests
from bs4 import BeautifulSoup
from PyPDF2 import PdfReader
from io import BytesIO
import json

def fetch_preview(url: str, max_lines: int = 5) -> str:
"""
Fetches a short preview of a dataset from various formats.
Hangs for some URLs – suspecting request timeout isn't enforced?
"""
if "service=wms" in url.lower() or url.lower().endswith((".wms",)):
return "(Preview not available for WMS services)"

try:
# This sometimes hangs indefinitely – even with timeout?
resp = requests.get(url, timeout=10)
resp.raise_for_status()
except Exception as e:
return f"(Error loading: {e})"

ctype = resp.headers.get("Content-Type", "").lower()

if "csv" in ctype or url.lower().endswith(".csv"):
return "\n".join(resp.text.splitlines()[:max_lines])

if "application/json" in ctype or url.lower().endswith(".json"):
try:
data = resp.json()
if isinstance(data, list):
snippet = data[:max_lines]
else:
keys = list(data.keys())[:max_lines]
snippet = {k: data[k] for k in keys}
return json.dumps(snippet, ensure_ascii=False, indent=2)
except:
return "(Invalid JSON)"

if "html" in ctype or url.lower().endswith((".html", ".htm")):
soup = BeautifulSoup(resp.text, "html.parser")
paras = soup.find_all("p", limit=max_lines)
return "\n".join(p.get_text().strip() for p in paras)

if "xml" in ctype or url.lower().endswith((".xml", ".gml")) or "wfs" in url.lower():
return "\n".join(resp.text.splitlines()[:max_lines])

if "pdf" in ctype or url.lower().endswith(".pdf"):
try:
reader = PdfReader(BytesIO(resp.content))
if reader.pages:
text = reader.pages[0].extract_text() or ""
return "\n".join(text.splitlines()[:max_lines])
except:
return "(PDF could not be read)"

return "(Unknown format)"

Подробнее здесь: https://stackoverflow.com/questions/796 ... on-slow-br

Реклама

1749475319

Anonymous

 Я работаю над сценарием, который запросит URL -адреса набора данных (CSV, JSON, PDF, HTML, иногда XML) из конечной точки Sparql Sparql. CSVS). 
Однако, несмотря на тайм -аут , скрипт [b] по -прежнему висит [/b] - без исключений, без вывода и отсутствия прогресса. 
Я подозреваю некоторые конечные точки (особенно. бесконечно . Мне нужен [b] жесткий срез [/b] - если нет ответа, например, 15 секунд, скрипт должен продолжаться без блокировки.
import requests
from bs4 import BeautifulSoup
from PyPDF2 import PdfReader
from io import BytesIO
import json

def fetch_preview(url: str, max_lines: int = 5) -> str:
"""
Fetches a short preview of a dataset from various formats.
Hangs for some URLs – suspecting request timeout isn't enforced?
"""
if "service=wms" in url.lower() or url.lower().endswith((".wms",)):
return "(Preview not available for WMS services)"

try:
# This sometimes hangs indefinitely – even with timeout?
resp = requests.get(url, timeout=10)
resp.raise_for_status()
except Exception as e:
return f"(Error loading: {e})"

ctype = resp.headers.get("Content-Type", "").lower()

if "csv" in ctype or url.lower().endswith(".csv"):
return "\n".join(resp.text.splitlines()[:max_lines])

if "application/json" in ctype or url.lower().endswith(".json"):
try:
data = resp.json()
if isinstance(data, list):
snippet = data[:max_lines]
else:
keys = list(data.keys())[:max_lines]
snippet = {k: data[k] for k in keys}
return json.dumps(snippet, ensure_ascii=False, indent=2)
except:
return "(Invalid JSON)"

if "html" in ctype or url.lower().endswith((".html", ".htm")):
soup = BeautifulSoup(resp.text, "html.parser")
paras = soup.find_all("p", limit=max_lines)
return "\n".join(p.get_text().strip() for p in paras)

if "xml" in ctype or url.lower().endswith((".xml", ".gml")) or "wfs" in url.lower():
return "\n".join(resp.text.splitlines()[:max_lines])

if "pdf" in ctype or url.lower().endswith(".pdf"):
try:
reader = PdfReader(BytesIO(resp.content))
if reader.pages:
text = reader.pages[0].extract_text() or ""
return "\n".join(text.splitlines()[:max_lines])
except:
return "(PDF could not be read)"

return "(Unknown format)"
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79658944/requests-get-still-hangs-despite-timeout-how-to-force-hard-cutoff-on-slow-br[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Вызывает ли сбой тайм-аут сторожевого таймера или тайм-аут является результатом сбоя?

Последнее сообщение Anonymous « 18 апр 2024, 00:02
Добавлено в форуме Linux

Anonymous » 18 апр 2024, 00:02 » в форуме Linux

У меня происходит сбой в системе. systemd-udev.service дает сбой, как видно из журналов ниже:
Apr 03 20:15:04 dut-3 charon-systemd : sending keep alive to 194.1.1.1
Apr 03 20:15:04 dut-3 charon-systemd : sending keep alive to 194.1.1.1
Apr 03...

0 Ответы

157 Просмотры

Последнее сообщение Anonymous
18 апр 2024, 00:02
Тайм-аут вызова API и тайм-аут попытки вызова API dynamodb

Последнее сообщение Anonymous « 08 ноя 2024, 11:43
Добавлено в форуме JAVA

Anonymous » 08 ноя 2024, 11:43 » в форуме JAVA

Я пытался понять разницу между apicallattempttimeout и apicalltimeout. Что я мог понять, так это то, что apicalltimeout — это общее время, в течение которого клиентский запрос ожидает ответа, прежде чем отказаться от него, тогда как...

0 Ответы

121 Просмотры

Последнее сообщение Anonymous
08 ноя 2024, 11:43
Почему Python httpx.get или Requests.get намного медленнее, чем cURL для этого API?

Последнее сообщение Anonymous « 16 сен 2024, 11:15
Добавлено в форуме Python

Anonymous » 16 сен 2024, 11:15 » в форуме Python

Для проекта домашней автоматизации я пытаюсь получить данные о задержке поездов. Существует оболочка API с примерами cURL. Они работают нормально, но запросы Python Request.get и httpx.get медленно извлекают данные (до минуты для запросов и около 4...

0 Ответы

39 Просмотры

Последнее сообщение Anonymous
16 сен 2024, 11:15
Requests.get согласованный «IncompleteRead» для URL-адреса

Последнее сообщение Anonymous « 22 окт 2024, 23:30
Добавлено в форуме Python

Anonymous » 22 окт 2024, 23:30 » в форуме Python

При использовании Request.get следующим образом я постоянно получаю ошибку IncompleteRead:
response = requests.get(
Пробовал, но не помогло:

переход с https на http на основе (Как обрабатывать IncompleteRead: в Python) и по-прежнему получать...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
22 окт 2024, 23:30
Requests.get согласованный «IncompleteRead» для URL-адреса

Последнее сообщение Anonymous « 23 окт 2024, 09:23
Добавлено в форуме Python

Anonymous » 23 окт 2024, 09:23 » в форуме Python

При использовании Request.get следующим образом я постоянно получаю ошибку IncompleteRead:
response = requests.get(
Пробовал, но не помогло:

переход с https на http на основе (Как обрабатывать IncompleteRead: в Python) и по-прежнему получать...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
23 окт 2024, 09:23

Вернуться в «Python»

Programmiererforum