Я пытаюсь захватить некоторые элементы из HTML-кода определенного URL-адреса.
Когда я копирую и вставляю содержимое HTML непосредственно в свой код Python, это работает хорошо.
import re
# Sample HTML content
html_content = """
"""
# Regex pattern
pattern = r'{"order":\d+,"url":"(https:[^"]+\.webp)"}'
# Find matches
matches = re.findall(pattern, html_content)
# Print matches
for match in matches:
print(match)
^^ работает хорошо. Но когда я пытаюсь сделать то же самое, используя Request.get, это не работает:
import re
import requests
url = "https://asuracomic.net/series/bloodhoun ... chapter/59"
response = requests.get(url)
html_content = response.text
# Regex pattern
pattern = r'{"order":\d+,"url":"(https:[^"]+\.webp)"}'
# Find matches
matches = re.findall(pattern, html_content)
# Print matches
for match in matches:
print(match)
Учитывая, что HTML-код, который я копирую и вставляю, на самом деле генерируется с помощью Requests.get:
with open('raw_html.html', 'w', encoding='utf-8') as f:
f.write(html_content)
Подробнее здесь: https://stackoverflow.com/questions/793 ... ed-by-requ
Re.findall с запросами не соответствует скопированному и вставленному HTML (сгенерированному Requests.text) ⇐ Python
Программы на Python
1734967862
Anonymous
Я пытаюсь захватить некоторые элементы из HTML-кода определенного URL-адреса.
Когда я копирую и вставляю содержимое HTML непосредственно в свой код Python, это работает хорошо.
import re
# Sample HTML content
html_content = """
"""
# Regex pattern
pattern = r'{"order":\d+,"url":"(https:[^"]+\.webp)"}'
# Find matches
matches = re.findall(pattern, html_content)
# Print matches
for match in matches:
print(match)
^^ работает хорошо. Но когда я пытаюсь сделать то же самое, используя Request.get, это не работает:
import re
import requests
url = "https://asuracomic.net/series/bloodhounds-regression-instinct-2d0edc16/chapter/59"
response = requests.get(url)
html_content = response.text
# Regex pattern
pattern = r'{"order":\d+,"url":"(https:[^"]+\.webp)"}'
# Find matches
matches = re.findall(pattern, html_content)
# Print matches
for match in matches:
print(match)
Учитывая, что HTML-код, который я копирую и вставляю, на самом деле генерируется с помощью Requests.get:
with open('raw_html.html', 'w', encoding='utf-8') as f:
f.write(html_content)
Подробнее здесь: [url]https://stackoverflow.com/questions/79303535/re-findall-with-requests-doesnt-match-copied-and-pasted-html-generated-by-requ[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия