Я пытаюсь парсить сайт bestbuy.com, и мне удается парсить только одну страницу, а не несколько страниц.

Я пытаюсь парсить сайт bestbuy.com, и мне удается парсить только одну страницу, а не несколько страниц. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Я пытаюсь парсить сайт bestbuy.com, и мне удается парсить только одну страницу, а не несколько страниц.

Цитата

Сообщение Anonymous » 18 ноя 2024, 19:29

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.chrome.service import Service as ChromeService
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains
import configparser
from datetime import datetime, timedelta, date
import time
import json
import requests

parser = configparser.RawConfigParser()

parser.read('config.ini')
page=parser['PROPERTIES']['PAGE']
url= parser['PROPERTIES']['URL']
OMIT_KEYWORDS= parser['FILTERS']['OMIT'].split(',')
INCLUDE_KEYWORDS=parser['FILTERS']['INCLUDE'].split(',')
END_DATE = datetime.strptime(parser['DATE']['END'], '%Y-%m-%d')
START_DATE=datetime.strptime(parser['DATE']['START'],'%Y-%m-%d')
minimum_comment_length = int(parser['PROPERTIES']['MIN_COMMENT_LENGTH'])
maximum_comment_length = int(parser['PROPERTIES']['MAX_COMMENT_LENGTH'])

# Setting up driver options
options = webdriver.ChromeOptions()
# Setting up Path to chromedriver executable file
CHROMEDRIVER_PATH =r'C:\Users\HP\Desktop\INTERNSHIP\Target\chromedriver.exe'
# Adding options
options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_experimental_option("useAutomationExtension", False)
# Setting up chrome service
service = ChromeService(executable_path=CHROMEDRIVER_PATH)
# Establishing Chrom web driver using set services and options
driver = webdriver.Chrome(service=service, options=options)
wait = WebDriverWait(driver, 20)
driver.implicitly_wait(10)
time.sleep(2)
driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")
item_list=[]

driver.get(url)
reviews = wait.until(EC.visibility_of_all_elements_located((By.CSS_SELECTOR, ".review-item")))
time.sleep(2)

for review in reviews:
this_review_date_string= review.find_element_by_xpath(".//time[contains(@class,'submission-date')]")
this_review_date_string_ago= this_review_date_string.text
date_today= date.today()

if "month" in this_review_date_string_ago:
date_period_string = this_review_date_string_ago.split("month")[0]
date_period_int = int(date_period_string)*30
temp_review_date = date_today - timedelta(days=date_period_int)

elif "day" in this_review_date_string_ago:
date_period_string=this_review_date_string_ago.split("day")[0]
date_period_int = int(date_period_string)
temp_review_date = date_today - timedelta(days=date_period_int)

elif "hour" in this_review_date_string_ago:
date_period_string=this_review_date_string_ago.split("hour")[0]
date_period_int = int(date_period_string)
temp_review_date = date_today - timedelta(hours=date_period_int)

elif "year" in this_review_date_string_ago:
date_period_string=this_review_date_string_ago.split("year")[0]
date_period_int = int(date_period_string)*365
temp_review_date = date_today - timedelta(days=date_period_int)

this_review_datetime = temp_review_date.strftime('%d %B %Y')
current_date= datetime.strptime( this_review_datetime, '%d %B %Y')

if  (START_DATE< current_date <  END_DATE):
item={
'stars': review.find_element_by_xpath(".//p[contains(@class,'visually-hidden')]").text.replace("out of 5 stars","").replace("Rated",""),
'username': review.find_element_by_xpath(".//div[contains(@class,'ugc-author v-fw-medium body-copy-lg')]").text,
'userurl':"NA",
'title':review.find_element_by_xpath(".//h4[contains(@class,'c-section-title review-title heading-5 v-fw-medium')]").text,
'review_text':review.find_element_by_xpath(".//div[contains(@class,'ugc-review-body')]//p[contains(@class,'pre-white-space')]").text,
'permalink': "NA",
'reviewlocation': "NA",
'reviewdate': this_review_datetime,
'subproductname': "NA",
'subproductlink': "NA",
}
item_list.append(item)

print(item_list)
with open("output.json","r+") as outfile:
json.dump(item_list,outfile)

Я хочу собрать отзывы со всех страниц, но сейчас я получаю отзывы только на одной странице. Ссылка, которую я использую для очистки: https://www.bestbuy.com/site/reviews/be ... 1?variant= A&skuId=6412331&page=1. Я хочу разбить на страницы. Скажите, пожалуйста, как запустить цикл, чтобы я мог очистить все страницы.

Подробнее здесь: https://stackoverflow.com/questions/737 ... e-rather-t

1731947387

Anonymous

[code]from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.chrome.service import Service as ChromeService
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains
import configparser
from datetime import datetime, timedelta, date
import time
import json
import requests

parser = configparser.RawConfigParser()

parser.read('config.ini')
page=parser['PROPERTIES']['PAGE']
url= parser['PROPERTIES']['URL']
OMIT_KEYWORDS= parser['FILTERS']['OMIT'].split(',')
INCLUDE_KEYWORDS=parser['FILTERS']['INCLUDE'].split(',')
END_DATE = datetime.strptime(parser['DATE']['END'], '%Y-%m-%d')
START_DATE=datetime.strptime(parser['DATE']['START'],'%Y-%m-%d')
minimum_comment_length = int(parser['PROPERTIES']['MIN_COMMENT_LENGTH'])
maximum_comment_length = int(parser['PROPERTIES']['MAX_COMMENT_LENGTH'])

# Setting up driver options
options = webdriver.ChromeOptions()
# Setting up Path to chromedriver executable file
CHROMEDRIVER_PATH =r'C:\Users\HP\Desktop\INTERNSHIP\Target\chromedriver.exe'
# Adding options
options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_experimental_option("useAutomationExtension", False)
# Setting up chrome service
service = ChromeService(executable_path=CHROMEDRIVER_PATH)
# Establishing Chrom web driver using set services and options
driver = webdriver.Chrome(service=service, options=options)
wait = WebDriverWait(driver, 20)
driver.implicitly_wait(10)
time.sleep(2)
driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")
item_list=[]

driver.get(url)
reviews = wait.until(EC.visibility_of_all_elements_located((By.CSS_SELECTOR, ".review-item")))
time.sleep(2)

for review in reviews:
this_review_date_string= review.find_element_by_xpath(".//time[contains(@class,'submission-date')]")
this_review_date_string_ago= this_review_date_string.text
date_today= date.today()

if "month" in this_review_date_string_ago:
date_period_string = this_review_date_string_ago.split("month")[0]
date_period_int = int(date_period_string)*30
temp_review_date = date_today - timedelta(days=date_period_int)

elif "day" in this_review_date_string_ago:
date_period_string=this_review_date_string_ago.split("day")[0]
date_period_int = int(date_period_string)
temp_review_date = date_today - timedelta(days=date_period_int)

elif "hour" in this_review_date_string_ago:
date_period_string=this_review_date_string_ago.split("hour")[0]
date_period_int = int(date_period_string)
temp_review_date = date_today - timedelta(hours=date_period_int)

elif "year" in this_review_date_string_ago:
date_period_string=this_review_date_string_ago.split("year")[0]
date_period_int = int(date_period_string)*365
temp_review_date = date_today - timedelta(days=date_period_int)

this_review_datetime = temp_review_date.strftime('%d %B %Y')
current_date= datetime.strptime( this_review_datetime, '%d %B %Y')

if  (START_DATE< current_date <  END_DATE):
item={
'stars': review.find_element_by_xpath(".//p[contains(@class,'visually-hidden')]").text.replace("out of 5 stars","").replace("Rated",""),
'username': review.find_element_by_xpath(".//div[contains(@class,'ugc-author v-fw-medium body-copy-lg')]").text,
'userurl':"NA",
'title':review.find_element_by_xpath(".//h4[contains(@class,'c-section-title review-title heading-5 v-fw-medium')]").text,
'review_text':review.find_element_by_xpath(".//div[contains(@class,'ugc-review-body')]//p[contains(@class,'pre-white-space')]").text,
'permalink': "NA",
'reviewlocation': "NA",
'reviewdate': this_review_datetime,
'subproductname': "NA",
'subproductlink': "NA",
}
item_list.append(item)

print(item_list)
with open("output.json","r+") as outfile:
json.dump(item_list,outfile)
[/code]
Я хочу собрать отзывы со всех страниц, но сейчас я получаю отзывы только на одной странице. Ссылка, которую я использую для очистки: https://www.bestbuy.com/site/reviews/bella-pro-series-12-6-qt-digital-air-fryer-oven-stainless-steel/6412331?variant= A&skuId=6412331&page=1. Я хочу разбить на страницы. Скажите, пожалуйста, как запустить цикл, чтобы я мог очистить все страницы. 

Подробнее здесь: [url]https://stackoverflow.com/questions/73791141/i-am-trying-to-scrape-bestbuy-com-and-i-am-able-to-scrape-just-one-page-rather-t[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Я пытаюсь парсить сайт bestbuy.com, и мне удается парсить только одну страницу, а не несколько страниц.

Последнее сообщение Anonymous « 17 ноя 2024, 12:29
Добавлено в форуме Python

Anonymous » 17 ноя 2024, 12:29 » в форуме Python

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.chrome.service import Service as ChromeService
from selenium.webdriver.common.by import By
from selenium.webdriver.support import...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
17 ноя 2024, 12:29
Как парсить сайт с помощью User-Agent для Ipad?

Последнее сообщение Anonymous « 26 июн 2024, 08:02
Добавлено в форуме Php

Anonymous » 26 июн 2024, 08:02 » в форуме Php

Как я могу очистить сайт с помощью User-Agent для Ipad?

У меня есть этот код ниже, использующий Curl в PHP, который выводит исходный код, но все еще не может найти теги. В браузере Ipad или Safari с использованием пользовательского агента Ipad...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
26 июн 2024, 08:02
Как парсить веб-сайт, http get или http post?

Последнее сообщение Anonymous « 25 июл 2024, 11:30
Добавлено в форуме JAVA

Anonymous » 25 июл 2024, 11:30 » в форуме JAVA

Я новичок в программировании и очень мало знаю о http, но я написал код для парсинга веб-сайта на Java и столкнулся с проблемой, заключающейся в том, что мой код получает http-вызовы (на основе ввода URL-адреса). ), но я не знаю, как очистить данные...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
25 июл 2024, 11:30
Scrapy не может парсить сайт

Последнее сообщение Anonymous « 25 июл 2024, 14:50
Добавлено в форуме Python

Anonymous » 25 июл 2024, 14:50 » в форуме Python

Я занимаюсь этим уже пару дней, но до сих пор не могу найти ответ.
Я использую Scrapy (Python), чтобы очистить эту веб-страницу.
Вот мои каталоги:

hotels/
|_ scrapy.cfg
|_ hotels/
|_ __init__.py
|_ items.py
|_ pipelines.py
|_ settings.py
|_...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
25 июл 2024, 14:50
Невозможно подсчитать нумерацию страниц в формате PDF. Использование счетчика (страниц) и счетчика (страниц) — это счетч

Последнее сообщение Anonymous « 19 окт 2023, 14:46
Добавлено в форуме CSS

Anonymous » 19 окт 2023, 14:46 » в форуме CSS

У меня есть отчет в формате html, и данные заполняются с использованием скорости Apache . Здесь я добавил нижний колонтитул. В разделе нижнего колонтитула будет показан номер страницы разбивки на страницы, но отображается Страница 0 из 0 > Я не...

0 Ответы

205 Просмотры

Последнее сообщение Anonymous
19 окт 2023, 14:46

Вернуться в «Python»