Веб-скрапинг с использованием селена и beautifulsoup для использования в модели RAG [закрыто]

Веб-скрапинг с использованием селена и beautifulsoup для использования в модели RAG [закрыто] ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Веб-скрапинг с использованием селена и beautifulsoup для использования в модели RAG [закрыто]

Цитата

Сообщение Anonymous » 20 сен 2024, 13:42

Я хочу выполнить парсинг веб-страниц для проекта.
В проекте реализована тряпка, и я хотел добавить еще немного информации в модель, поэтому решил извлечь расшифровки из YouTube и используйте его для получения более обобщенных способов.
Получение и создание ссылок на YouTube прошло успешно. Однако, когда я попытался учесть веб-сайты, я столкнулся с трудностями.
Итак, все, что я использовал, это то, что я уже использовал HTML-празеры и регулярные выражения, чтобы получить данные без шума, по-прежнему извлекая файлы веб-сайтов из раздела комментариев. и некоторые вещи были связаны с объединением данных.
Технологии, которые я пробовал, - это "selenium", "beautifulsoul".
Я сделал HTML Praser и использовал регулярное выражение для избавиться от шума внутри данных, но он все равно останется.

Подробнее здесь: https://stackoverflow.com/questions/790 ... -rag-model

1726828966

Anonymous

Подробнее здесь: [url]https://stackoverflow.com/questions/79005517/web-scraping-using-selenium-and-beautifulsoup-for-using-in-a-rag-model[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Веб-скрапинг с использованием селена и beautifulsoup для использования в модели RAG.

Последнее сообщение Anonymous « 20 сен 2024, 09:34
Добавлено в форуме Python

Anonymous » 20 сен 2024, 09:34 » в форуме Python

Итак, я хочу выполнить парсинг веб-страниц для проекта.
Что есть в проекте, так это то, что в нем реализована тряпка, и я хотел добавить еще немного информации в модель, поэтому решил извлечь стенограммы из YouTube и используйте его для получения...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
20 сен 2024, 09:34
Веб-скрапинг Python: BeautifulSoup не показывает весь исходный контент HTML

Последнее сообщение Anonymous « 03 окт 2024, 03:07
Добавлено в форуме Python

Anonymous » 03 окт 2024, 03:07 » в форуме Python

Я новичок в веб-скрапинге и Python. Я пытался создать сценарий, который получает цену последней сделки с но, похоже, некоторый контент отсутствует, когда я запрашиваю его с помощью Python. Раньше я создавал сценарии, которые успешно получали данные...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
03 окт 2024, 03:07
Веб-скрапинг Python BeautifulSoup Tripadvisor просмотреть обзор

Последнее сообщение Anonymous « 13 дек 2024, 06:21
Добавлено в форуме Python

Anonymous » 13 дек 2024, 06:21 » в форуме Python

Итак, я новичок в веб-скрапинге и пытаюсь просмотреть список отзывов о конкретном отеле.
Сначала я пытаюсь просмотреть конкретный отзыв, выбрав определенный класс, и не получаю никаких результатов. даже когда я пытаюсь проверить код состояния...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
13 дек 2024, 06:21
Веб-скрапинг с использованием Python [закрыто]

Последнее сообщение Anonymous « 16 июл 2024, 14:13
Добавлено в форуме Python

Anonymous » 16 июл 2024, 14:13 » в форуме Python

Удаление данных с веб-сайта
Я пытаюсь удалить некоторые данные с веб-сайта (Tofler.in) с помощью Python, при запуске происходит сбой с кодом ошибки 503. Я хочу извлечь наше название компаний. Данные находятся на 15 страницах. Любая помощь по этому...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
16 июл 2024, 14:13
Веб-скрапинг веб-сайта с таблицей с разбивкой на страницы, но без кнопки «Далее»

Последнее сообщение Anonymous « 05 дек 2024, 01:30
Добавлено в форуме Python

Anonymous » 05 дек 2024, 01:30 » в форуме Python

Я пытаюсь получить данные с первых трех страниц таблицы с разбивкой на страницы: Пока могу получить данные только с первой страницы. (У них есть API, но он обновляется только еженедельно, что для меня недостаточно часто).
Вот что у меня есть:
from...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
05 дек 2024, 01:30

Вернуться в «Python»