HTML-код не загружается полностью перед попыткой его проверки

HTML-код не загружается полностью перед попыткой его проверки ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

HTML-код не загружается полностью перед попыткой его проверки

Цитата

Сообщение Anonymous » 22 дек 2025, 21:48

    url = booklink[0].replace('/index.html', '/page' + str(pages) + '.html')
req = Request(url,headers={'User-Agent': 'Mozilla/5.0'})
page = urlopen(req).read()
htm = BeautifulSoup(page, 'html.parser')
html = htm.prettify()

Я пытаюсь загрузить HTML-код с веб-страницы, а затем извлечь из него что-то. Большую часть времени он работает нормально. В других случаях, когда я захожу на re.findall, он возвращается и сообщает, что ничего не нашел, даже на той же странице. Похоже, я имею дело со случаем, когда веб-страница не загружается полностью до того, как программа пытается проверить HTML-код.
Я уже пробовал такие вещи, как:

Код: Выделить всё

response = requests.get(url, stream=True)
soup = BeautifulSoup(response.raw.read(), 'html.parser')

Код: Выделить всё

with urllib.request.urlopen(url) as response:
source_code = response.read().decode('utf-8')

с гораздо худшей производительностью, включая загрузку первого элемента, а затем постоянное повторение вместо того, чтобы захватить следующий элемент и поместить его в текстовый файл.
Как мне заставить программу убедиться, что вся веб-страница загружена, прежде чем она попытается ее очистить?>

Подробнее здесь: https://stackoverflow.com/questions/798 ... examine-it

1766429318

Anonymous

[code]    url = booklink[0].replace('/index.html', '/page' + str(pages) + '.html')
req = Request(url,headers={'User-Agent': 'Mozilla/5.0'})
page = urlopen(req).read()
htm = BeautifulSoup(page, 'html.parser')
html = htm.prettify()
[/code]
Я пытаюсь загрузить HTML-код с веб-страницы, а затем извлечь из него что-то. Большую часть времени он работает нормально. В других случаях, когда я захожу на re.findall, он возвращается и сообщает, что ничего не нашел, даже на той же странице. Похоже, я имею дело со случаем, когда веб-страница не загружается полностью до того, как программа пытается проверить HTML-код.
Я уже пробовал такие вещи, как:
[code]response = requests.get(url, stream=True)
soup = BeautifulSoup(response.raw.read(), 'html.parser')
[/code]
и
[code]with urllib.request.urlopen(url) as response:
source_code = response.read().decode('utf-8')
[/code]
с гораздо худшей производительностью, включая загрузку первого элемента, а затем постоянное повторение вместо того, чтобы захватить следующий элемент и поместить его в текстовый файл.
Как мне заставить программу убедиться, что вся веб-страница загружена, прежде чем она попытается ее очистить?> 

Подробнее здесь: [url]https://stackoverflow.com/questions/79853109/html-code-not-downloading-fully-before-trying-to-examine-it[/url]