Re.findall с запросами не соответствует скопированному и вставленному HTML (сгенерированному Requests.text)

Re.findall с запросами не соответствует скопированному и вставленному HTML (сгенерированному Requests.text) ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Re.findall с запросами не соответствует скопированному и вставленному HTML (сгенерированному Requests.text)

Цитата

Сообщение Anonymous » 23 дек 2024, 21:35

Я пытаюсь захватить некоторые элементы из HTML-кода определенного URL-адреса.
Когда я копирую и вставляю содержимое HTML непосредственно в свой код Python, это работает хорошо.
import re

# Sample HTML content
html_content = """

"""

# Regex pattern
pattern = r'{"order":\d+,"url":"(https:[^"]+\.webp)"}'

# Find matches
matches = re.findall(pattern, html_content)

# Print matches
for match in matches:
print(match)

^^ работает хорошо. Но когда я пытаюсь сделать то же самое, используя Request.get, это не работает:
import re
import requests
url = "https://asuracomic.net/series/bloodhoun ... chapter/59"
response = requests.get(url)
html_content = response.text

# Regex pattern
pattern = r'{"order":\d+,"url":"(https:[^"]+\.webp)"}'

# Find matches
matches = re.findall(pattern, html_content)

# Print matches
for match in matches:
print(match)

Учитывая, что HTML-код, который я копирую и вставляю, на самом деле генерируется с помощью Requests.get:
with open('raw_html.html', 'w', encoding='utf-8') as f:
f.write(html_content)

Подробнее здесь: https://stackoverflow.com/questions/793 ... ed-by-requ

1734978939

Anonymous

Я пытаюсь захватить некоторые элементы из HTML-кода определенного URL-адреса.
Когда я копирую и вставляю содержимое HTML непосредственно в свой код Python, это работает хорошо.
import re

# Sample HTML content
html_content = """

"""

# Regex pattern
pattern = r'{"order":\d+,"url":"(https:[^"]+\.webp)"}'

# Find matches
matches = re.findall(pattern, html_content)

# Print matches
for match in matches:
print(match)

^^ работает хорошо. Но когда я пытаюсь сделать то же самое, используя Request.get, это не работает:
import re
import requests
url = "https://asuracomic.net/series/bloodhounds-regression-instinct-2d0edc16/chapter/59"
response = requests.get(url)
html_content = response.text

# Regex pattern
pattern = r'{"order":\d+,"url":"(https:[^"]+\.webp)"}'

# Find matches
matches = re.findall(pattern, html_content)

# Print matches
for match in matches:
print(match)

Учитывая, что HTML-код, который я копирую и вставляю, на самом деле генерируется с помощью Requests.get:
with open('raw_html.html', 'w', encoding='utf-8') as f:
f.write(html_content)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79303535/re-findall-with-requests-doesnt-match-copied-and-pasted-html-generated-by-requ[/url]