Как исключить классы div «modal-content» и «modal-body» из веб-скребка Pyppeteer? - Цифровое Кемерово

Как исключить классы div «modal-content» и «modal-body» из веб-скребка Pyppeteer? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как исключить классы div «modal-content» и «modal-body» из веб-скребка Pyppeteer?

Цитата

Сообщение Anonymous » 11 июл 2024, 23:52

Я создаю парсер, который получает текстовые данные из списка статей. Типичный образец текстового контента, который я сейчас проверяю, - это сообщение внизу:
"Как подписчик, вам показывают на 80 % меньше медийной рекламы при чтении. Наши статьи, которые вы видите, в основном принадлежат местным компаниям, продвигающим местные услуги. Эти рекламные объявления позволяют местным предприятиям привлечь внимание своей целевой аудитории – местного сообщества. Важно, чтобы мы продолжали продвигать эту рекламу по мере необходимости нашего местного бизнеса. как можно больше поддержки в эти трудные времена».
Я хочу, чтобы парсер pyppeteer игнорировал классы, содержащие это сообщение, чтобы он не втягивался в результирующие данные. Глядя на "суп" сайта, кажется, что они хранятся в и , но я не могу этого понять. чтобы исключить их из очистки. Вот фрагмент моего сценария Pyppeteer.

Код: Выделить всё

if url.startswith('www.'):
url = 'https://' + url
try:
page = await browser.newPage()

await stealth(page)

# Go to the desired page and wait for resources to load
await page.goto(url, waitUntil='networkidle2', timeout=1000000)

# Execute JavaScript to remove unwanted elements
await page.evaluate('''() => {

// Function to block new windows (pop-ups)
function blockPopups() {
window.open = function() {
console.log("Blocked a popup attempt.");
};
}
blockPopups();

// Select and remove all  and  elements
const unwantedElements = document.querySelectorAll('nav, footer', 'header', 'menu', 'sidebar', 'ads', 'related', 'sponsored', 'comments', 'subscribe', 'social', 'popup', 'modal', 'mainfooter', 'search-form', 'bottomAd', 'modal-dialog', 'modal-lg', 'modal-content', 'modal-body', 'modal-footer');
unwantedElements.forEach(el => el.remove());

// Select and remove specific  elements by their class combinations
const specificParagraphs = ['p.sc-ipEyDJ.sc-dmctIk.jsPbGk.eDQUpO', 'p.sc-ipEyDJ.sc-idXgbr.jsPbGk.hBXpo', 'p.article-comments__moderation-rules-text', 'p.delete-alert__message mar-alert__message'];
specificParagraphs.forEach(selector => {
const el = document.querySelector(selector);
if (el) {
el.remove();
}
});

// Return nothing, as content extraction will be done later in Python
}''')

# Extract content using BeautifulSoup
headings, paragraphs = await extract_content(page)`

Что я пробовал:

Код: Выделить всё

const unwantedElements = document.querySelectorAll('nav, footer', 'header', 'menu', 'sidebar', 'ads', 'related', 'sponsored', 'comments', 'subscribe', 'social', 'popup', 'modal', 'mainfooter', 'search-form', 'bottomAd', 'modal-dialog', 'modal-lg', 'modal-content', 'modal-body', 'modal-footer'); unwantedElements.forEach(el => el.remove());

Что я ожидал:
(Текстовое содержание страницы без содержания о рекламе)
Что на самом деле получилось:
Что я ожидал:
(Текстовое содержимое), за которым следует 'Как подписчик, вам будет показано на 80 % меньше медийной рекламы при чтении наших статей. Те объявления, которые вы видите, в основном принадлежат местным компаниям, продвигающим местные услуги. Эта реклама позволяет местному бизнесу предстать перед своей целевой аудиторией – местным сообществом. Важно, чтобы мы продолжали продвигать эту рекламу, поскольку в эти трудные времена наш местный бизнес нуждается в максимальной поддержке».

Подробнее здесь: https://stackoverflow.com/questions/787 ... teer-web-s

Реклама

1720731179

Anonymous

Я создаю парсер, который получает текстовые данные из списка статей. Типичный образец текстового контента, который я сейчас проверяю, - это сообщение внизу:
"Как подписчик, вам показывают на 80 % меньше медийной рекламы при чтении. Наши статьи, которые вы видите, в основном принадлежат местным компаниям, продвигающим местные услуги. Эти рекламные объявления позволяют местным предприятиям привлечь внимание своей целевой аудитории – местного сообщества. Важно, чтобы мы продолжали продвигать эту рекламу по мере необходимости нашего местного бизнеса. как можно больше поддержки в эти трудные времена».
Я хочу, чтобы парсер pyppeteer игнорировал классы, содержащие это сообщение, чтобы он не втягивался в результирующие данные. Глядя на "суп" сайта, кажется, что они хранятся в  и , но я не могу этого понять. чтобы исключить их из очистки. Вот фрагмент моего сценария Pyppeteer.
[code]if url.startswith('www.'):
url = 'https://' + url
try:
page = await browser.newPage()

await stealth(page)

# Go to the desired page and wait for resources to load
await page.goto(url, waitUntil='networkidle2', timeout=1000000)

# Execute JavaScript to remove unwanted elements
await page.evaluate('''() => {

// Function to block new windows (pop-ups)
function blockPopups() {
window.open = function() {
console.log("Blocked a popup attempt.");
};
}
blockPopups();

// Select and remove all  and  elements
const unwantedElements = document.querySelectorAll('nav, footer', 'header', 'menu', 'sidebar', 'ads', 'related', 'sponsored', 'comments', 'subscribe', 'social', 'popup', 'modal', 'mainfooter', 'search-form', 'bottomAd', 'modal-dialog', 'modal-lg', 'modal-content', 'modal-body', 'modal-footer');
unwantedElements.forEach(el => el.remove());

// Select and remove specific  elements by their class combinations
const specificParagraphs = ['p.sc-ipEyDJ.sc-dmctIk.jsPbGk.eDQUpO', 'p.sc-ipEyDJ.sc-idXgbr.jsPbGk.hBXpo', 'p.article-comments__moderation-rules-text', 'p.delete-alert__message mar-alert__message'];
specificParagraphs.forEach(selector => {
const el = document.querySelector(selector);
if (el) {
el.remove();
}
});

// Return nothing, as content extraction will be done later in Python
}''')

# Extract content using BeautifulSoup
headings, paragraphs = await extract_content(page)`
[/code]
Что я пробовал:
[code]const unwantedElements = document.querySelectorAll('nav, footer', 'header', 'menu', 'sidebar', 'ads', 'related', 'sponsored', 'comments', 'subscribe', 'social', 'popup', 'modal', 'mainfooter', 'search-form', 'bottomAd', 'modal-dialog', 'modal-lg', 'modal-content', 'modal-body', 'modal-footer'); unwantedElements.forEach(el => el.remove());[/code]
Что я ожидал:
(Текстовое содержание страницы без содержания о рекламе)
Что на самом деле получилось:
Что я ожидал:
(Текстовое содержимое), за которым следует 'Как подписчик, вам будет показано на 80 % меньше медийной рекламы при чтении наших статей. Те объявления, которые вы видите, в основном принадлежат местным компаниям, продвигающим местные услуги. Эта реклама позволяет местному бизнесу предстать перед своей целевой аудиторией – местным сообществом. Важно, чтобы мы продолжали продвигать эту рекламу, поскольку в эти трудные времена наш местный бизнес нуждается в максимальной поддержке». 

Подробнее здесь: [url]https://stackoverflow.com/questions/78737499/how-to-exclude-div-classes-modal-content-and-modal-body-from-pyppeteer-web-s[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Каковы значения свойств HTML Body Body? [закрыто]

Последнее сообщение Anonymous « 12 фев 2025, 16:00
Добавлено в форуме Html

Anonymous » 12 фев 2025, 16:00 » в форуме Html

Что такое HTML Body -элемент стандартные значения свойств CSS? Какие свойства определены и какое значение установлено по умолчанию. , ширина ; Но больше описанных свойств приветствуются. Также статья документации, решающая проблему, будет...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
12 фев 2025, 16:00
Столкнулся с проблемой при развертывании веб-скребка на Heroku.

Последнее сообщение Anonymous « 24 окт 2024, 16:13
Добавлено в форуме Python

Anonymous » 24 окт 2024, 16:13 » в форуме Python

Я хотел сделать небольшой проект в свободное время для практики и опыта и хотел написать веб-скребок для YUYU-TEI.jp. Я хотел создать веб-скребок для извлечения данных, встроенных в HTML-код страницы, и получения таких сведений о картах, как...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
24 окт 2024, 16:13
Как автоматически заполнить CAPTCHA изображением с помощью веб-скребка в ASP.NET C#? [закрыто]

Последнее сообщение Anonymous « 08 янв 2025, 11:02
Добавлено в форуме C#

Anonymous » 08 янв 2025, 11:02 » в форуме C#

Я работаю над проектом очистки веб-страниц с использованием ASP.NET C#, и мне нужно автоматически обрабатывать изображения CAPTCHA. В частности, мне нужно извлечь текст из изображений CAPTCHA и заполнить его в форме без ручного вмешательства.
Какие...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
08 янв 2025, 11:02
Как автоматически заполнить CAPTCHA изображением с помощью веб-скребка в ASP.NET C#? [закрыто]

Последнее сообщение Anonymous « 08 янв 2025, 11:02
Добавлено в форуме Javascript

Anonymous » 08 янв 2025, 11:02 » в форуме Javascript

Я работаю над проектом очистки веб-страниц с использованием ASP.NET C#, и мне нужно автоматически обрабатывать изображения CAPTCHA. В частности, мне нужно извлечь текст из изображений CAPTCHA и заполнить его в форме без ручного вмешательства.
Какие...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
08 янв 2025, 11:02
Запрос веб -скребка Python MongoDB не работает

Последнее сообщение Anonymous « 14 фев 2025, 10:11
Добавлено в форуме Python

Anonymous » 14 фев 2025, 10:11 » в форуме Python

Я довольно новичок в программировании и в настоящее время изучаю Python. У меня есть проект Web Scrapper с использованием Python и Beautiful Soup Library ниже, где я отхожу всю статью с веб -страницы новостей. Мне удается отказаться от статьи, но я...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
14 фев 2025, 10:11

Вернуться в «Python»

Programmiererforum