Scrapy Spider использует промежуточное программное обеспечение seleniumbase, очищающее URL-адреса «chrome-extension», ко

Scrapy Spider использует промежуточное программное обеспечение seleniumbase, очищающее URL-адреса «chrome-extension», ко ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Scrapy Spider использует промежуточное программное обеспечение seleniumbase, очищающее URL-адреса «chrome-extension», ко

Цитата

Сообщение Anonymous » 21 окт 2024, 22:00

В настоящее время я использую Scrapy Spider, используя промежуточное программное обеспечение Seleniumbase, и по какой-то причине он очищает URL-адреса расширений Chrome. Я считываю веб-сайт https://www.atptour.com, и мой парсер ни в коем случае не запрашивает ничего, кроме страниц с этого веб-сайта.
Я прикрепил ниже моего журнала того, что происходит:

Код: Выделить всё

2024-10-21 17:43:47: [INFO] Spider opened
2024-10-21 17:43:47: [INFO] Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2024-10-21 17:43:47: [INFO] Telnet console listening on 127.0.0.1:6027
2024-10-21 17:43:50: [DEBUG] Started executable: `/Users/philipjoss/miniconda3/envs/capra_production/lib/python3.11/site-packages/seleniumbase/drivers/uc_driver` in a child process with pid: 22177 using 0 to output -1
2024-10-21 17:43:51: [DEBUG] Crawled (200)  (referer: None)
2024-10-21 17:43:54: [DEBUG] Started executable: `/Users/philipjoss/miniconda3/envs/capra_production/lib/python3.11/site-packages/seleniumbase/drivers/uc_driver` in a child process with pid: 22180 using 0 to output -1
2024-10-21 17:43:55: [DEBUG] Crawled (200)  (referer: None)
2024-10-21 17:43:55: [DEBUG] Crawled (200)  (referer: chrome-extension://neajdppkdcdipfabeoofebfddakdcjhd/audio.html)

Получено два успешных ответа от запрошенных мной веб-страниц, а затем внезапно появляется URL-адрес расширения Chrome. Что еще странно, так это то, что в качестве реферера указан тот же адрес, который никогда ранее не запрашивался.
Чтобы было интереснее, я запустил код на другом компьютере, и там он работал нормально. с теми же версиями пакетов: Scrapy 2.11.2 и Seleniumbase 4.28.5.
Это паук:

Код: Выделить всё

from scrapy import Request, Spider
from scrapy.http.response.html import HtmlResponse

class Production(Spider):

name = "atp_production"

start_urls = [
"https://www.atptour.com/en/-/tournaments/calendar/tour",
"https://www.atptour.com/en/-/tournaments/calendar/challenger",
]

def start_requests(self):
for url in self.start_urls:
yield Request(
url=url,
callback=self._parse_calendar,
meta=dict(dont_redirect=True),
)

def _parse_calendar(self, response: HtmlResponse):
json_str = response.xpath("//body//text()").get()

А это промежуточное ПО:

Код: Выделить всё

class SeleniumBase:
@classmethod
def from_crawler(cls, crawler: Crawler):
middleware = cls(crawler.settings)
crawler.signals.connect(middleware.spider_closed, signals.spider_closed)

return middleware

def __init__(self, settings: dict[str, Any]) -> None:
self.driver = sb.Driver(
uc=settings.get("UNDETECTABLE", None),
headless=settings.get("HEADLESS", None),
user_data_dir=settings.get("USER_DATA_DIR", None),
)

def spider_closed(self, *_) -> None:
self.driver.quit()

def process_request(self, request: Request, spider: Spider) -> HtmlResponse:
self.driver.get(request.url)

return HtmlResponse(
self.driver.current_url,
body=self.driver.page_source,
encoding="utf-8",
request=request,
)

Есть идеи, что может произойти?

Подробнее здесь: https://stackoverflow.com/questions/791 ... n-urls-tha

1729537201

Anonymous

В настоящее время я использую Scrapy Spider, используя промежуточное программное обеспечение Seleniumbase, и по какой-то причине он очищает URL-адреса расширений Chrome. Я считываю веб-сайт https://www.atptour.com, и мой парсер ни в коем случае не запрашивает ничего, кроме страниц с этого веб-сайта.
Я прикрепил ниже моего журнала того, что происходит:
[code]2024-10-21 17:43:47: [INFO] Spider opened
2024-10-21 17:43:47: [INFO] Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2024-10-21 17:43:47: [INFO] Telnet console listening on 127.0.0.1:6027
2024-10-21 17:43:50: [DEBUG] Started executable: `/Users/philipjoss/miniconda3/envs/capra_production/lib/python3.11/site-packages/seleniumbase/drivers/uc_driver` in a child process with pid: 22177 using 0 to output -1
2024-10-21 17:43:51: [DEBUG] Crawled (200)  (referer: None)
2024-10-21 17:43:54: [DEBUG] Started executable: `/Users/philipjoss/miniconda3/envs/capra_production/lib/python3.11/site-packages/seleniumbase/drivers/uc_driver` in a child process with pid: 22180 using 0 to output -1
2024-10-21 17:43:55: [DEBUG] Crawled (200)  (referer: None)
2024-10-21 17:43:55: [DEBUG] Crawled (200)  (referer: chrome-extension://neajdppkdcdipfabeoofebfddakdcjhd/audio.html)
[/code]
Получено два успешных ответа от запрошенных мной веб-страниц, а затем внезапно появляется URL-адрес расширения Chrome. Что еще странно, так это то, что в качестве реферера указан тот же адрес, который никогда ранее не запрашивался.
Чтобы было интереснее, я запустил код на другом компьютере, и там он работал нормально. с теми же версиями пакетов: Scrapy 2.11.2 и Seleniumbase 4.28.5.
Это паук:
[code]from scrapy import Request, Spider
from scrapy.http.response.html import HtmlResponse

class Production(Spider):

name = "atp_production"

start_urls = [
"https://www.atptour.com/en/-/tournaments/calendar/tour",
"https://www.atptour.com/en/-/tournaments/calendar/challenger",
]

def start_requests(self):
for url in self.start_urls:
yield Request(
url=url,
callback=self._parse_calendar,
meta=dict(dont_redirect=True),
)

def _parse_calendar(self, response: HtmlResponse):
json_str = response.xpath("//body//text()").get()
[/code]
А это промежуточное ПО:
[code]class SeleniumBase:
@classmethod
def from_crawler(cls, crawler: Crawler):
middleware = cls(crawler.settings)
crawler.signals.connect(middleware.spider_closed, signals.spider_closed)

return middleware

def __init__(self, settings: dict[str, Any]) -> None:
self.driver = sb.Driver(
uc=settings.get("UNDETECTABLE", None),
headless=settings.get("HEADLESS", None),
user_data_dir=settings.get("USER_DATA_DIR", None),
)

def spider_closed(self, *_) -> None:
self.driver.quit()

def process_request(self, request: Request, spider: Spider) -> HtmlResponse:
self.driver.get(request.url)

return HtmlResponse(
self.driver.current_url,
body=self.driver.page_source,
encoding="utf-8",
request=request,
)
[/code]
Есть идеи, что может произойти? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79111414/scrapy-spider-using-seleniumbase-middleware-scraping-chrome-extension-urls-tha[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Scrapy Spider использует промежуточное программное обеспечение seleniumbase, очищающее URL-адреса «chrome-extension», ко

Последнее сообщение Anonymous « 22 окт 2024, 01:44
Добавлено в форуме Python

Anonymous » 22 окт 2024, 01:44 » в форуме Python

В настоящее время я использую Scrapy Spider, используя промежуточное программное обеспечение Seleniumbase, и по какой-то причине он очищает URL-адреса расширений Chrome. Я считываю веб-сайт и мой парсер ни в коем случае не запрашивает ничего, кроме...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
22 окт 2024, 01:44
Scrapy Spider использует промежуточное программное обеспечение seleniumbase, очищающее URL-адреса «chrome-extension», ко

Последнее сообщение Anonymous « 23 окт 2024, 17:15
Добавлено в форуме Python

Anonymous » 23 окт 2024, 17:15 » в форуме Python

В настоящее время я использую Scrapy Spider, используя промежуточное программное обеспечение Seleniumbase, и по какой-то причине он очищает URL-адреса расширений Chrome. Я считываю веб-сайт и мой парсер ни в коем случае не запрашивает ничего, кроме...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
23 окт 2024, 17:15
Scrapy Spider использует промежуточное программное обеспечение seleniumbase, очищающее URL-адреса «chrome-extension», ко

Последнее сообщение Anonymous « 23 окт 2024, 21:00
Добавлено в форуме Python

Anonymous » 23 окт 2024, 21:00 » в форуме Python

В настоящее время я использую Scrapy Spider, используя промежуточное программное обеспечение Seleniumbase, и по какой-то причине он очищает URL-адреса расширений Chrome. Я считываю веб-сайт и мой парсер ни в коем случае не запрашивает ничего, кроме...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
23 окт 2024, 21:00
Scrapy Spider с использованием промежуточного программного обеспечения seleniumbase, очищающего URL-адреса «chrome-exten

Последнее сообщение Anonymous « 29 окт 2024, 10:56
Добавлено в форуме Python

Anonymous » 29 окт 2024, 10:56 » в форуме Python

В настоящее время я использую Scrapy Spider, используя промежуточное программное обеспечение Seleniumbase, и по какой-то причине он очищает URL-адреса расширений Chrome. Я считываю веб-сайт и мой парсер ни в коем случае не запрашивает ничего, кроме...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
29 окт 2024, 10:56
Обработка ошибок Scrapy Spider (scrapy.core.scraper)

Последнее сообщение Anonymous « 09 ноя 2024, 10:58
Добавлено в форуме Python

Anonymous » 09 ноя 2024, 10:58 » в форуме Python

Прочитав несколько часов решений, я так и не смог найти ответ на свою проблему.
Я пытаюсь очистить веб-страницу супермаркета, думаю, ошибка в функции синтаксического анализа. Пожалуйста, если кто-то может мне помочь.
import scrapy
from bs4 import...

0 Ответы

49 Просмотры

Последнее сообщение Anonymous
09 ноя 2024, 10:58

Вернуться в «Python»