Я пытаюсь захватить некоторые элементы из HTML-кода определенного URL-адреса.
Когда я копирую и вставляю содержимое HTML непосредственно в свой код Python, это работает хорошо.
import re
# Sample HTML content
html_content = """
"""
# Regex pattern
pattern = r'{"order":\d+,"url":"(https:[^"]+\.webp)"}'
# Find matches
matches = re.findall(pattern, html_content)
# Print matches
for match in matches:
print(match)
^^ работает хорошо. Но когда я пытаюсь сделать то же самое, используя Request.get, это не работает:
import re
import requests
url = "https://asuracomic.net/series/bloodhoun ... chapter/59"
response = requests.get(url)
html_content = response.text
# Regex pattern
pattern = r'{"order":\d+,"url":"(https:[^"]+\.webp)"}'
# Find matches
matches = re.findall(pattern, html_content)
# Print matches
for match in matches:
print(match)
Учитывая, что HTML-код, который я копирую и вставляю, на самом деле генерируется с помощью Requests.get:
with open('raw_html.html', 'w', encoding='utf-8') as f:
f.write(html_content)
Подробнее здесь: https://stackoverflow.com/questions/793 ... ed-by-requ
Re.findall с запросами не соответствует скопированному и вставленному HTML (сгенерированному Requests.text) ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение