Python Web Scraping Selenium + BeautifulSoup с gspread и проблемой Google Sheets с большими объемами данных

Python Web Scraping Selenium + BeautifulSoup с gspread и проблемой Google Sheets с большими объемами данных ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Python Web Scraping Selenium + BeautifulSoup с gspread и проблемой Google Sheets с большими объемами данных

Цитата

Сообщение Anonymous » 07 дек 2024, 16:14

Я создаю веб-парсер, который собирает все данные с этой страницы примерно по 1500 товарам.
Я извлекаю название товара, если он является бестселлером, что это за одежда, сколько цветов в наличии и цена. Все извлекается по той же ссылке с BeautifulSoup.

Код: Выделить всё

for item in items:
name = item.find('a', class_ = 'product-card__link-overlay').text.strip()
try:
special_tag = item.find('div', class_ = 'product-card__messaging accent--color').text.strip()
except:
special_tag = '/'
productclass = item.find('div', class_ = 'product-card__subtitle').text.strip()
colours = item.find('div', class_ = 'product-card__product-count').text.strip()
try:
price = item.find('div', class_ = 'product-price us__styling is--current-price css-11s12ax').text.strip()
except:
price = item.find('div', class_ = 'product-price is--current-price css-1ydfahe').text.strip()
product = {'name':name, 'special':special_tag, 'class':productclass, 'colours':colours, 'price':price}
sh.append_row([str(product['name']),str(product['special']),str(product['class']),str(product['colours']),str(product['price'])])

Чтобы извлечь все, я использовал Selenium, чтобы прокрутить всю страницу и загрузить ее целиком.

Код: Выделить всё

time.sleep(3)
previous_height = driver.execute_script('return document.body.scrollHeight')

while True:
driver.execute_script('window.scrollTo(0,document.body.scrollHeight);')

time.sleep(3)

new_height = driver.execute_script('return document.body.scrollHeight')

if new_height == previous_height:
page_source = driver.page_source
break
previous_height = new_height

После того, как я извлек исходный код страницы и использовал его в BeautifulSoup, возникла проблема. Я перепробовал все, что только мог придумать, даже поискал в Интернете, но это все равно не помогло. Программа извлекает всего около 65-70 продуктов и внезапно останавливается.
Весь код только для справки:

Код: Выделить всё

from bs4 import BeautifulSoup
import gspread
import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service as ChromeService
from webdriver_manager.chrome import ChromeDriverManager

driver = webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()))

gc = gspread.service_account(filename='creds.json')
sh = gc.open('Nike catalog').sheet1

driver.get('https://www.nike.com/w/mens-clothing-6ymx6znik1')

#Scroll program
time.sleep(3)
previous_height = driver.execute_script('return document.body.scrollHeight')

while True:
driver.execute_script('window.scrollTo(0,document.body.scrollHeight);')

time.sleep(3)

new_height = driver.execute_script('return document.body.scrollHeight')

if new_height == previous_height:
page_source = driver.page_source
break
previous_height = new_height

#Main program
baseurl='https://www.nike.com/w/mens-clothing-6ymx6znik1'

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36'}

soup = BeautifulSoup( page_source,'lxml')

items = soup.find_all('div', class_ = 'product-card__body')

#HTML parser
for item in items:
name = item.find('a', class_ = 'product-card__link-overlay').text.strip()
try:
special_tag = item.find('div', class_ = 'product-card__messaging accent--color').text.strip()
except:
special_tag = '/'
productclass = item.find('div', class_ = 'product-card__subtitle').text.strip()
colours = item.find('div', class_ = 'product-card__product-count').text.strip()
try:
price = item.find('div', class_ = 'product-price us__styling is--current-price css-11s12ax').text.strip()
except:
price = item.find('div', class_ = 'product-price is--current-price css-1ydfahe').text.strip()
product = {'name':name, 'special':special_tag, 'class':productclass, 'colours':colours, 'price':price}
sh.append_row([str(product['name']),str(product['special']),str(product['class']),str(product['colours']),str(product['price'])])

Я просмотрел всю загруженную страницу и убедился, что HTML-классы и код одинаковы для каждого из продуктов. Возможно это какой-то запрет, который Найк встроил на свой сайт, я никаких прокси не использую. Я также пропустил исключения, но это не сработало.
Я не знаю, как это исправить. Кто-нибудь сталкивался с такой же проблемой или имел опыт в чем-то подобном? Если вы это сделаете, мы будем очень признательны, если вы сможете решить эту проблему. Заранее спасибо.

Подробнее здесь: https://stackoverflow.com/questions/792 ... ets-proble

1733577258

Anonymous

Я создаю веб-парсер, который собирает все данные с этой страницы примерно по 1500 товарам.
Я извлекаю название товара, если он является бестселлером, что это за одежда, сколько цветов в наличии и цена. Все извлекается по той же ссылке с BeautifulSoup.
[code]for item in items:
name = item.find('a', class_ = 'product-card__link-overlay').text.strip()
try:
special_tag = item.find('div', class_ = 'product-card__messaging accent--color').text.strip()
except:
special_tag = '/'
productclass = item.find('div', class_ = 'product-card__subtitle').text.strip()
colours = item.find('div', class_ = 'product-card__product-count').text.strip()
try:
price = item.find('div', class_ = 'product-price us__styling is--current-price css-11s12ax').text.strip()
except:
price = item.find('div', class_ = 'product-price is--current-price css-1ydfahe').text.strip()
product = {'name':name, 'special':special_tag, 'class':productclass, 'colours':colours, 'price':price}
sh.append_row([str(product['name']),str(product['special']),str(product['class']),str(product['colours']),str(product['price'])])
[/code]
Чтобы извлечь все, я использовал Selenium, чтобы прокрутить всю страницу и загрузить ее целиком.
[code]time.sleep(3)
previous_height = driver.execute_script('return document.body.scrollHeight')

while True:
driver.execute_script('window.scrollTo(0,document.body.scrollHeight);')

time.sleep(3)

new_height = driver.execute_script('return document.body.scrollHeight')

if new_height == previous_height:
page_source = driver.page_source
break
previous_height = new_height
[/code]
После того, как я извлек исходный код страницы и использовал его в BeautifulSoup, возникла проблема. Я перепробовал все, что только мог придумать, даже поискал в Интернете, но это все равно не помогло. Программа извлекает всего около 65-70 продуктов и внезапно останавливается.
Весь код только для справки:
[code]from bs4 import BeautifulSoup
import gspread
import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service as ChromeService
from webdriver_manager.chrome import ChromeDriverManager

driver = webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()))

gc = gspread.service_account(filename='creds.json')
sh = gc.open('Nike catalog').sheet1

driver.get('https://www.nike.com/w/mens-clothing-6ymx6znik1')

#Scroll program
time.sleep(3)
previous_height = driver.execute_script('return document.body.scrollHeight')

while True:
driver.execute_script('window.scrollTo(0,document.body.scrollHeight);')

time.sleep(3)

new_height = driver.execute_script('return document.body.scrollHeight')

if new_height == previous_height:
page_source = driver.page_source
break
previous_height = new_height

#Main program
baseurl='https://www.nike.com/w/mens-clothing-6ymx6znik1'

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36'}

soup = BeautifulSoup( page_source,'lxml')

items = soup.find_all('div', class_ = 'product-card__body')

#HTML parser
for item in items:
name = item.find('a', class_ = 'product-card__link-overlay').text.strip()
try:
special_tag = item.find('div', class_ = 'product-card__messaging accent--color').text.strip()
except:
special_tag = '/'
productclass = item.find('div', class_ = 'product-card__subtitle').text.strip()
colours = item.find('div', class_ = 'product-card__product-count').text.strip()
try:
price = item.find('div', class_ = 'product-price us__styling is--current-price css-11s12ax').text.strip()
except:
price = item.find('div', class_ = 'product-price is--current-price css-1ydfahe').text.strip()
product = {'name':name, 'special':special_tag, 'class':productclass, 'colours':colours, 'price':price}
sh.append_row([str(product['name']),str(product['special']),str(product['class']),str(product['colours']),str(product['price'])])

[/code]
Я просмотрел всю загруженную страницу и убедился, что HTML-классы и код одинаковы для каждого из продуктов. Возможно это какой-то запрет, который Найк встроил на свой сайт, я никаких прокси не использую. Я также пропустил исключения, но это не сработало.
Я не знаю, как это исправить.  Кто-нибудь сталкивался с такой же проблемой или имел опыт в чем-то подобном? Если вы это сделаете, мы будем очень признательны, если вы сможете решить эту проблему. Заранее спасибо. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79254666/python-web-scraping-seleniumbeautifulsoup-with-gspread-and-google-sheets-proble[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Python Web Scraping Selenium + BeautifulSoup с gspread и проблемой Google Sheets с большими объемами данных

Последнее сообщение Anonymous « 05 дек 2024, 15:24
Добавлено в форуме Python

Anonymous » 05 дек 2024, 15:24 » в форуме Python

Я создаю веб-парсер, который собирает все данные с этой страницы примерно по 1500 товарам.
Я извлекаю название товара, если он является бестселлером, что это за одежда, сколько цветов в наличии и цена. Все извлекается по той же ссылке с...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
05 дек 2024, 15:24
Web Scraping Beautifulsoup, если данные, показанные только если я нажимаю «Показать детали»

Последнее сообщение Anonymous « 23 апр 2025, 14:54
Добавлено в форуме Python

Anonymous » 23 апр 2025, 14:54 » в форуме Python

Я пытаюсь соскрести данные с сайта «Продажа автомобилей», когда я въезжаю на веб -сайт, я вижу таблицу автомобилей (тип, цена, год), но если я хочу узнать больше о машине, я должен нажать на автомобиль, а затем показывает более подробную информацию....

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
23 апр 2025, 14:54
Интернет -соскабливание / Zomato Web Scraping с BeautifulSoup

Последнее сообщение Anonymous « 11 июн 2025, 11:39
Добавлено в форуме Python

Anonymous » 11 июн 2025, 11:39 » в форуме Python

Я попробовал веб-соскабливание, ссылаясь на только что скопированный и вставленные код на сайте, но получение ошибки на 2-м шаге.
import requests
from bs4 import BeautifulSoup

#Used headers/agent because the request was timed out and asking for an...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
11 июн 2025, 11:39
BeautifulSoup, Web Scraping | Мой HTTP -запрос работает (код 200), но когда я пытаюсь поймать код HTML, у меня есть код

Последнее сообщение Anonymous « 19 июн 2025, 00:59
Добавлено в форуме Python

Anonymous » 19 июн 2025, 00:59 » в форуме Python

import requests, bs4, html5lib
from bs4 import BeautifulSoup
url =
ip = input( Choisissez une IP : )
response = requests.post(url, data={ ip : ip})
soup = BeautifulSoup(response.text, html.parser )
print(response)

def compare():
if soup.find(...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
19 июн 2025, 00:59
BeautifulSoup, Web Scraping | Мой HTTP -запрос работает (код 200), но когда я пытаюсь поймать код HTML, у меня есть код

Последнее сообщение Anonymous « 19 июн 2025, 00:59
Добавлено в форуме Html

Anonymous » 19 июн 2025, 00:59 » в форуме Html

import requests, bs4, html5lib
from bs4 import BeautifulSoup
url =
ip = input( Choisissez une IP : )
response = requests.post(url, data={ ip : ip})
soup = BeautifulSoup(response.text, html.parser )
print(response)

def compare():
if soup.find(...

0 Ответы

1 Просмотры

Последнее сообщение Anonymous
19 июн 2025, 00:59

Вернуться в «Python»