Интернет соскабливает огромную страницу права с ужасным HTML

Интернет соскабливает огромную страницу права с ужасным HTML ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Интернет соскабливает огромную страницу права с ужасным HTML

Цитата

Сообщение Anonymous » 21 фев 2025, 17:35

Я пытаюсь снять этот бразильский закон в интернет -формате, такого как: {"artigo": int, "texto": str} *(статья и текст ). Тексты неартий.

Код: Выделить всё

import requests
import re
import json
from bs4 import BeautifulSoup
import chardet

url = "https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2015/lei/L13105compilada.htm"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
}
response = requests.get(url, headers=headers)
data = response.content

detected = chardet.detect(data)
encoding = detected['encoding']
print(f"Codificação detectada: {encoding}")

html = data.decode(encoding)
soup = BeautifulSoup(html, 'html.parser')
artigos = []

for p in soup.find_all('p', class_='Artigo'):
texto_completo = p.get_text(separator=' ', strip=True)
match = re.search(r'Art\.\s*(\d+)', texto_completo)
if match:
num_artigo = int(match.group(1))
texto_limpo = re.sub(r'Art\.\s*\d+[ºº]?\s*', '', texto_completo, count=1)
artigos.append({
"artigo": num_artigo,
"texto": texto_limpo
})

print(json.dumps(artigos, indent=2, ensure_ascii=False))

Так есть ли способ правильно получить все статьи?

Подробнее здесь: https://stackoverflow.com/questions/794 ... rible-html

1740148501

Anonymous

 Я пытаюсь снять этот бразильский закон в интернет -формате, такого как:  [b] {"artigo": int, "texto": str} [/b]  *(статья и текст ). Тексты неартий.[code]import requests
import re
import json
from bs4 import BeautifulSoup
import chardet

url = "https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2015/lei/L13105compilada.htm"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
}
response = requests.get(url, headers=headers)
data = response.content

detected = chardet.detect(data)
encoding = detected['encoding']
print(f"Codificação detectada: {encoding}")

html = data.decode(encoding)
soup = BeautifulSoup(html, 'html.parser')
artigos = []

for p in soup.find_all('p', class_='Artigo'):
texto_completo = p.get_text(separator=' ', strip=True)
match = re.search(r'Art\.\s*(\d+)', texto_completo)
if match:
num_artigo = int(match.group(1))
texto_limpo = re.sub(r'Art\.\s*\d+[ºº]?\s*', '', texto_completo, count=1)
artigos.append({
"artigo": num_artigo,
"texto": texto_limpo
})

print(json.dumps(artigos, indent=2, ensure_ascii=False))
[/code]
Так есть ли способ правильно получить все статьи?  

Подробнее здесь: [url]https://stackoverflow.com/questions/79457603/web-scrapping-a-huge-law-page-with-terrible-html[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Интернет соскабливает огромную страницу права с ужасным HTML

Последнее сообщение Anonymous « 21 фев 2025, 18:44
Добавлено в форуме Python

Anonymous » 21 фев 2025, 18:44 » в форуме Python

Я пытаюсь снять этот бразильский закон в интернет -формате, такого как: { artigo : int, texto : str} *(статья и текст ). Тексты неартий.import requests
import re
import json
from bs4 import BeautifulSoup
import chardet

url =
headers = {...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
21 фев 2025, 18:44
Lmfit fit вызывает огромную неопределенность

Последнее сообщение Anonymous « 20 сен 2024, 17:03
Добавлено в форуме Python

Anonymous » 20 сен 2024, 17:03 » в форуме Python

Я использую библиотеку lmfit в Python и получаю огромную неопределенность. Я заметил, что это происходит, когда параметр наилучшего соответствия сам по себе очень мал. Знаете ли вы, как оцениваются неопределенности аппроксимации?
Здесь я показываю...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
20 сен 2024, 17:03
Обоплорительное оборудование двигатель, вызывая огромную задержку и потребление памяти

Последнее сообщение Anonymous « 10 мар 2025, 17:03
Добавлено в форуме IOS

Anonymous » 10 мар 2025, 17:03 » в форуме IOS

Я работаю над проектом Flutter (SDK: '> = 3.0.1
FLTEnableImpeller

низко и достопримечательно, но, конечно, не удивительно, все вернулось к «нормальному», и я смог на самом деле прокручивать исходный файл, в то время как симулятор выполнял мой...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
10 мар 2025, 17:03
Обоплорительное оборудование двигатель, вызывая огромную задержку и потребление памяти

Последнее сообщение Anonymous « 12 июл 2025, 08:03
Добавлено в форуме IOS

Anonymous » 12 июл 2025, 08:03 » в форуме IOS

Я работаю над проектом Flutter (SDK: '> = 3.0.1
FLTEnableImpeller

низко и достопримечательно, но, конечно, не удивительно, все вернулось к «нормальному», и я смог на самом деле прокручивать исходный файл, в то время как симулятор выполнял мой...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
12 июл 2025, 08:03
«Для согласия с лицензией Xcode/iOS требуются права администратора, пожалуйста, перезапустите его от имени пользователя

Последнее сообщение Гость « 20 сен 2023, 16:22
Добавлено в форуме IOS

Гость » 20 сен 2023, 16:22 » в форуме IOS

При попытке скомпилировать программу на языке C я выполнил следующую команду:

gcc pthread.c -o pthread Возвраты:

Для согласия с лицензией Xcode/iOS требуются права администратора, перезапустите его от имени пользователя root через sudo.

и мой...

0 Ответы

103 Просмотры

Последнее сообщение Гость
20 сен 2023, 16:22

Вернуться в «Python»