Веб-скрапинг с использованием селена и beautifulsoup для использования в модели RAG.

Веб-скрапинг с использованием селена и beautifulsoup для использования в модели RAG. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Веб-скрапинг с использованием селена и beautifulsoup для использования в модели RAG.

Цитата

Сообщение Anonymous » 20 сен 2024, 09:34

Итак, я хочу выполнить парсинг веб-страниц для проекта.
Что есть в проекте, так это то, что в нем реализована тряпка, и я хотел добавить еще немного информации в модель, поэтому решил извлечь стенограммы из YouTube и используйте его для получения более обобщенных способов.
Получение и создание ссылок на YouTube прошло успешно. Однако, когда я попытался учесть веб-сайты, я столкнулся с трудностями.
Итак, все, что я использовал, это то, что я уже использовал HTML-празеры и регулярные выражения, чтобы получить данные без шума, по-прежнему извлекая файлы веб-сайтов из раздела комментариев. и некоторые материалы были связаны с объединением данных.
Будем признательны, если кто-нибудь сможет помочь. Аригато:)
Технологии, которые я пробовал, - это "selenium", "beautifulsoul"
Я написал HTML-празер и использовал регулярное выражение, чтобы избавиться от шума внутри данных, но это все еще существует.

Подробнее здесь: https://stackoverflow.com/questions/790 ... -rag-model

1726814095

Anonymous

Итак, я хочу выполнить парсинг веб-страниц для проекта.
Что есть в проекте, так это то, что в нем реализована тряпка, и я хотел добавить еще немного информации в модель, поэтому решил извлечь стенограммы из YouTube и используйте его для получения более обобщенных способов.
Получение и создание ссылок на YouTube прошло успешно. Однако, когда я попытался учесть веб-сайты, я столкнулся с трудностями.
Итак, все, что я использовал, это то, что я уже использовал HTML-празеры и регулярные выражения, чтобы получить данные без шума, по-прежнему извлекая файлы веб-сайтов из раздела комментариев. и некоторые материалы были связаны с объединением данных.
Будем признательны, если кто-нибудь сможет помочь. Аригато:)
Технологии, которые я пробовал, - это "selenium", "beautifulsoul"
Я написал HTML-празер и использовал регулярное выражение, чтобы избавиться от шума внутри данных, но это все еще существует. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79005517/web-scraping-using-selenium-and-beautifulsoup-for-using-in-a-rag-model[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Веб-скрапинг с использованием селена и beautifulsoup для использования в модели RAG [закрыто]

Последнее сообщение Anonymous « 20 сен 2024, 13:42
Добавлено в форуме Python

Anonymous » 20 сен 2024, 13:42 » в форуме Python

Я хочу выполнить парсинг веб-страниц для проекта.
В проекте реализована тряпка, и я хотел добавить еще немного информации в модель, поэтому решил извлечь расшифровки из YouTube и используйте его для получения более обобщенных способов.
Получение и...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
20 сен 2024, 13:42
Веб-скрапинг Python: BeautifulSoup не показывает весь исходный контент HTML

Последнее сообщение Anonymous « 03 окт 2024, 03:07
Добавлено в форуме Python

Anonymous » 03 окт 2024, 03:07 » в форуме Python

Я новичок в веб-скрапинге и Python. Я пытался создать сценарий, который получает цену последней сделки с но, похоже, некоторый контент отсутствует, когда я запрашиваю его с помощью Python. Раньше я создавал сценарии, которые успешно получали данные...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
03 окт 2024, 03:07
Веб-скрапинг Python BeautifulSoup Tripadvisor просмотреть обзор

Последнее сообщение Anonymous « 13 дек 2024, 06:21
Добавлено в форуме Python

Anonymous » 13 дек 2024, 06:21 » в форуме Python

Итак, я новичок в веб-скрапинге и пытаюсь просмотреть список отзывов о конкретном отеле.
Сначала я пытаюсь просмотреть конкретный отзыв, выбрав определенный класс, и не получаю никаких результатов. даже когда я пытаюсь проверить код состояния...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
13 дек 2024, 06:21
Веб-скрапинг веб-сайта с таблицей с разбивкой на страницы, но без кнопки «Далее»

Последнее сообщение Anonymous « 05 дек 2024, 01:30
Добавлено в форуме Python

Anonymous » 05 дек 2024, 01:30 » в форуме Python

Я пытаюсь получить данные с первых трех страниц таблицы с разбивкой на страницы: Пока могу получить данные только с первой страницы. (У них есть API, но он обновляется только еженедельно, что для меня недостаточно часто).
Вот что у меня есть:
from...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
05 дек 2024, 01:30
Веб-скрапинг веб-сайта с таблицей с разбивкой на страницы, но без кнопки «Далее»

Последнее сообщение Anonymous « 05 дек 2024, 08:29
Добавлено в форуме Python

Anonymous » 05 дек 2024, 08:29 » в форуме Python

Я пытаюсь получить данные с первых трех страниц таблицы с разбивкой на страницы: Пока могу получить данные только с первой страницы. (У них есть API, но он обновляется только еженедельно, что для меня недостаточно часто).
Вот что у меня есть:
from...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
05 дек 2024, 08:29

Вернуться в «Python»