Scrapy — очищается только первый URL-адрес в списке URL-адресов.

Scrapy — очищается только первый URL-адрес в списке URL-адресов. ⇐ Python

1 сообщение • Страница 1 из 1

Гость

Scrapy — очищается только первый URL-адрес в списке URL-адресов.

Сообщение Гость » 22 сен 2023, 15:42

Я собираю отзывы о ресторанах Рима, Милана и Бергамо. Для каждого из этих городов есть отдельный URL-адрес, содержащий 30 или более ресторанов. Скребок начинает сканировать рестораны Рима, но никогда не переключается на другие города. Он корректно очищает все рестораны и отзывы из Рима, но затем паук закрывается.

Рестораны Рима считываются одновременно, я ожидаю такого же поведения с начальными URL-адресами, но учитывается только первый
класс ReviewSpider2(scrapy.Spider): имя = 'отзывы2' защита start_requests (сам): URL = [ 'https://www.tripadvisor.it/Restaurants- ... Lazio.html' 'https://www.tripadvisor.it/Restaurants- ... bardy.html' 'https://www.tripadvisor.it/Restaurants- ... bardy.html' ] для URL-адреса в URL-адресах: выход Scrapy.Request (url, обратный вызов = self.parse_restaurants) def parse_restaurants(сам, ответ): all_restaurants = list(set(response.xpath("//div[contains(@data-test,'_list_item')]//div/div/div/span/a[starts-with(@href,'/Restaurant_Review' )]/@href").extract())) для ресторана во всех_ресторанах: URL = 'https://www.tripadvisor.it' + ресторан выход response.follow(url, обратный вызов = self.parse_restaurant) def parse_restaurant(self, ответ): all_reviews_containers = response.xpath('//div[@class="rev_wrap ui_columns is-multiline"]/div[2]') если all_reviews_containers не имеет значения None: для review_container в all_reviews_containers: элементы = ReviewscraperItem() items['restaurant_name'] = response.css('.HjBfq::text').extract_first() предметы['рейтинг'] = 0 рейтинг_классов = { 'ui_bubble_rating bubble_50': 5, 'ui_bubble_rating bubble_40': 4, 'ui_bubble_rating bubble_30': 3, 'ui_bubble_rating bubble_20': 2, 'ui_bubble_rating bubble_10': 1 } рейтинг_класс = обзор_контейнер.css('span::attr(класс)').extract_first() items['rating'] = рейтинг_классов.get(рейтинг_класс) items['quote'] = review_container.css('.noQuotes::text').extract_first() items['address'] = response.xpath("//span/span/a[@class='AYHFM']/text()").extract_first() items['review'] = review_container.css('.partial_entry::text').extract_first() давать предметы #проверяем, отключена ли кнопка следующей страницы (страниц не осталось) if response.xpath('//a[@class = "nav next ui_button Primary Disabled"]').extract_first() имеет значение None: next_page = 'https://www.tripadvisor.it' + response.xpath('//a[@class = "nav next ui_button Primary"]/@href').extract_first() выходной ответ.follow(url=next_page, обратный вызов = self.parse_restaurant)

Гость

1 сообщение • Страница 1 из 1

Вернуться в «Python»