Проблемы с парсингом веб-страниц: извлечение чистых данных с веб-сайтов [закрыто]

Проблемы с парсингом веб-страниц: извлечение чистых данных с веб-сайтов [закрыто] ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Проблемы с парсингом веб-страниц: извлечение чистых данных с веб-сайтов [закрыто]

Цитата

Сообщение Anonymous » 21 сен 2024, 06:46

Вопрос:
Я работаю над проектом парсинга веб-страниц, целью которого является извлечение чистых, структурированных данных с веб-сайтов для дальнейшего обогащения модели извлечения дополненной генерации (RAG). Хотя я успешно собираю и обрабатываю расшифровки стенограмм YouTube, я сталкиваюсь с проблемами при сборе данных веб-сайтов.
Мой подход:

Используемые технологии:
- Selenium для динамического рендеринга контента
- BeautifulSoup для анализа и извлечения HTML-контента.
- Regex и NLTK для фильтрации нежелательных шаблонов и шума.
Шаги, которые я предпринял:
- Удалены элементы HTML, такие как , и другие, которые не являются частью основного контента.
- Используются шаблоны регулярных выражений для фильтрации нерелевантных данных, таких как даты, адреса электронной почты и URL-адреса.
- Используются шаблоны регулярных выражений для фильтрации нерелевантных данных, таких как даты, адреса электронной почты и URL-адреса.
- li>
  Применены стоп-слова NLTK для большей очистки текста.

< strong>Фрагменты кода:
Вот образец из моего парсера BeautifulSoup:

Код: Выделить всё

from bs4 import BeautifulSoup
import requests
import re
from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))

class BeautifulSoupScraper:
@staticmethod
def extract_text_from_url(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# Remove unwanted elements
for unwanted in soup(['script', 'style', 'header', 'footer', 'nav', 'aside', 'form']):
unwanted.decompose()

paragraphs = soup.find_all('p')
text = "\n".join([para.get_text() for para in paragraphs])
return text

@staticmethod
def filter_text(text):
# Removing unwanted patterns (e.g., URLs, dates, etc.)
unwanted_patterns = [r'http[s]?://\S+', r'\b\d{1,2}[/-]\d{1,2}[/-]\d{2,4}\b']
for pattern in unwanted_patterns:
text = re.sub(pattern, '', text)
return ' '.join([word for word in text.split() if word.lower() not in stop_words])

Я также использую Selenium для динамического сбора результатов поиска:

Код: Выделить всё

from selenium import webdriver
from selenium.webdriver.common.by import By

class GoogleSearch:
@staticmethod
def search(keyword, num_results=5):
driver = webdriver.Chrome()
driver.get(f"https://www.google.com/search?q={keyword}")
elements = driver.find_elements(By.CLASS_NAME, "MjjYud")[:num_results]
links = [element.find_element(By.TAG_NAME, 'a').get_attribute('href') for element in elements]
driver.quit()
return links

Проблема:
Несмотря на использование BeautifulSoup и регулярных выражений для фильтрации нежелательных данных , я по-прежнему слышу много шума в извлеченном контенте, особенно в разделах комментариев, рекламных объявлениях и других нерелевантных частях веб-страницы. Моя цель — аккуратно извлечь значимый текст (например, содержимое блога, текст статьи) без этого шума.
Что я пробовал:

Использование регулярных выражений для удаления распространенных шаблонов, таких как даты, URL-адреса и адреса электронной почты.
Удаление стоп-слов с помощью NLTK.
Фильтрация по ключевым словам (например, «подписаться», «комментарии»), но все равно остаются нежелательные разделы веб-страницы.

Что мне нужно:

Что мне нужно:

Рекомендации и рекомендации по улучшению процесса фильтрации, особенно по удалению нерелевантных разделов веб-страниц.
Рекомендации по дополнительным вопросам эффективные способы очистки очищенных данных, помимо регулярного выражения и базовой фильтрации стоп-слов.
Любые советы по тому, как сделать процесс извлечения более точным и бесшумным при работе с различными типами структур веб-сайтов.
li>

Подробнее здесь: https://stackoverflow.com/questions/790 ... m-websites

1726890363

Anonymous

[b]Вопрос[/b]:
Я работаю над проектом парсинга веб-страниц, целью которого является извлечение чистых, структурированных данных с веб-сайтов для дальнейшего обогащения модели извлечения дополненной генерации (RAG). Хотя я успешно собираю и обрабатываю расшифровки стенограмм YouTube, я сталкиваюсь с проблемами при сборе данных веб-сайтов.
Мой подход:
[list]
[*][b]Используемые технологии[/b]:
[list]
Selenium для динамического рендеринга контента
[*] BeautifulSoup для анализа и извлечения HTML-контента.
[*]Regex и NLTK для фильтрации нежелательных шаблонов и шума.
[/list]

[*][b]Шаги, которые я предпринял[/b]:
[list]
Удалены элементы HTML, такие как ,  и другие, которые не являются частью основного контента.
[*]Используются шаблоны регулярных выражений для фильтрации нерелевантных данных, таких как даты, адреса электронной почты и URL-адреса.
[*]Используются шаблоны регулярных выражений для фильтрации нерелевантных данных, таких как даты, адреса электронной почты и URL-адреса.
[*] li>
Применены стоп-слова NLTK для большей очистки текста.
[/list]

[*]< strong>Фрагменты кода:
Вот образец из моего парсера BeautifulSoup:
[code]from bs4 import BeautifulSoup
import requests
import re
from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))

class BeautifulSoupScraper:
@staticmethod
def extract_text_from_url(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# Remove unwanted elements
for unwanted in soup(['script', 'style', 'header', 'footer', 'nav', 'aside', 'form']):
unwanted.decompose()

paragraphs = soup.find_all('p')
text = "\n".join([para.get_text() for para in paragraphs])
return text

@staticmethod
def filter_text(text):
# Removing unwanted patterns (e.g., URLs, dates, etc.)
unwanted_patterns = [r'http[s]?://\S+', r'\b\d{1,2}[/-]\d{1,2}[/-]\d{2,4}\b']
for pattern in unwanted_patterns:
text = re.sub(pattern, '', text)
return ' '.join([word for word in text.split() if word.lower() not in stop_words])
[/code]
Я также использую Selenium для динамического сбора результатов поиска:
[code]from selenium import webdriver
from selenium.webdriver.common.by import By

class GoogleSearch:
@staticmethod
def search(keyword, num_results=5):
driver = webdriver.Chrome()
driver.get(f"https://www.google.com/search?q={keyword}")
elements = driver.find_elements(By.CLASS_NAME, "MjjYud")[:num_results]
links = [element.find_element(By.TAG_NAME, 'a').get_attribute('href') for element in elements]
driver.quit()
return links
[/code]

[/list]
Проблема:
Несмотря на использование BeautifulSoup и регулярных выражений для фильтрации нежелательных данных , я по-прежнему слышу много шума в извлеченном контенте, особенно в разделах комментариев, рекламных объявлениях и других нерелевантных частях веб-страницы. Моя цель — аккуратно извлечь значимый текст (например, содержимое блога, текст статьи) без этого шума.
Что я пробовал:
[list]
[*]Использование регулярных выражений для удаления распространенных шаблонов, таких как даты, URL-адреса и адреса электронной почты.
[*]Удаление стоп-слов с помощью NLTK.
[*] Фильтрация по ключевым словам (например, «подписаться», «комментарии»), но все равно остаются нежелательные разделы веб-страницы.
[/list]
Что мне нужно:

Что мне нужно:
[list]
[*]Рекомендации и рекомендации по улучшению процесса фильтрации, особенно по удалению нерелевантных разделов веб-страниц.
[*]Рекомендации по дополнительным вопросам эффективные способы очистки очищенных данных, помимо регулярного выражения и базовой фильтрации стоп-слов.
[*]Любые советы по тому, как сделать процесс извлечения более точным и бесшумным при работе с различными типами структур веб-сайтов.
 li>
[/list] 

Подробнее здесь: [url]https://stackoverflow.com/questions/79005517/issues-with-web-scraping-extracting-clean-data-from-websites[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Проблемы с парсингом веб-страниц Python: неполное извлечение HTML-кода

Последнее сообщение Гость « 29 фев 2024, 15:51
Добавлено в форуме Python

Гость » 29 фев 2024, 15:51 » в форуме Python

Я новичок в Python, и в настоящее время у меня возникают проблемы с очисткой кода. Скрипт успешно получает доступ к веб-сайту и избегает файлов cookie. Однако, к сожалению, он не копирует весь HTML-код.

Это полная часть HTML-кода сайта:...

0 Ответы

19 Просмотры

Последнее сообщение Гость
29 фев 2024, 15:51
Проблема с парсингом веб-страниц в Python [закрыто]

Последнее сообщение Anonymous « 05 дек 2024, 09:27
Добавлено в форуме Python

Anonymous » 05 дек 2024, 09:27 » в форуме Python

введите здесь описание изображения
Пожалуйста, кто-нибудь может дать мне ответ с кодом
Я хочу выполнить парсинг веб-страниц с помощью Python, пожалуйста, помогите
/> в fetechAndSaveTofile
with open(path , w ) as f:
^^^^^^^^^^^^^^^^...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
05 дек 2024, 09:27
Трудности с парсингом веб-страниц

Последнее сообщение Anonymous « 19 янв 2025, 20:32
Добавлено в форуме Html

Anonymous » 19 янв 2025, 20:32 » в форуме Html

Я только что наткнулся на статью под названием «500 величайших песен всех времен» и подумал: «О, это круто, я уверен, они также составили музыкальный список Spotify/Apple, за которым я могу следить». Ну... нет.
Короче говоря, мне интересно, можно ли...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
19 янв 2025, 20:32
Как реализовать простой вход на несколько сайтов и общую панель администратора в Laravel для веб-сайтов электронной комм

Последнее сообщение Anonymous « 20 сен 2024, 13:02
Добавлено в форуме Php

Anonymous » 20 сен 2024, 13:02 » в форуме Php

У меня есть веб-сайт, созданный с помощью Laravel для электронной коммерции. Теперь мне нужно создать два дополнительных веб-сайта:
Веб-сайт для проведения мероприятий
Система управления обучением (LMS)
Требования:
Все три веб-сайта (электронная...

0 Ответы

64 Просмотры

Последнее сообщение Anonymous
20 сен 2024, 13:02
Как использовать VisibleForTesting для чистых тестов JUnit

Последнее сообщение Anonymous « 29 июн 2024, 12:15
Добавлено в форуме Android

Anonymous » 29 июн 2024, 12:15 » в форуме Android

Я провожу чистые Java-тесты JUnit4 поверх своих чистых Java-файлов в своем проекте, но не могу найти способ четко использовать @VisibleForTesting, не делая это вручную общедоступным.

Пример:

@VisibleForTesting
public Address getAddress() {
return...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
29 июн 2024, 12:15

Вернуться в «Python»