Scrapy не может парсить сайт - Цифровое Кемерово

Scrapy не может парсить сайт ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 25 июл 2024, 14:50

Я занимаюсь этим уже пару дней, но до сих пор не могу найти ответ.
Я использую Scrapy (Python), чтобы очистить эту веб-страницу.
Вот мои каталоги:

Код: Выделить всё

hotels/
|_ scrapy.cfg
|_ hotels/
|_ __init__.py
|_ items.py
|_ pipelines.py
|_ settings.py
|_ spiders/
|_ __init__.py
|_ hotels_spyder.py

Содержимое items.py

Код: Выделить всё

from scrapy.item import Item, Field

class HotelsItem(Item):
nameHotel = Field()
idHotel = Field()

Содержимое Hotels_spyder.py

Код: Выделить всё

from scrapy.spider import BaseSpider
from scrapy.selector import Selector

from hotels.items import HotelsItem

class HotelsSpider(BaseSpider):
name = "hotels"
allowed_domains = ["hotels.com"]
start_urls = ["http://fr.hotels.com/search.do?destination=New+York&arrivalDate=13%2F04%2F2015&departureDate=15%2F04%2F2015&rooms=1&children%5B0%5D=2&searchParams.rooms%5B0%5D.numberOfAdults=2&searchParams.rooms%5B0%5D.childrenAges%5B0%5D=7&searchParams.rooms%5B0%5D.childrenAges%5B1%5D=7&searchParams.landmark=&searchParams.resolvedLocation=CITY%3A1506246%3AEXACT_RED%3AHIGH&destinationId="]

def parse(self, response):
sel = Selector(response)
sites = sel.xpath('//h3[@class="hotel-name"]')
items = []
for site in sites:
item = HotelsItem()
type(item)
item['nameHotel'] = site.xpath('a/text()').extract()
item['idHotel'] = site.xpath('a/@id').extract()
items.append(item)
return items

Содержимое файла settings.py

Код: Выделить всё

BOT_NAME = 'hotels'

SPIDER_MODULES = ['hotels.spiders']
NEWSPIDER_MODULE = 'hotels.spiders'

Так что все это работает правильно. Он делает то, что я хочу (все равно мне приходится чистить места и прочее).

Но моя конечная цель — очистить американскую версию веб-сайта.
Поэтому я попытался заменить список с именем "start_urls", который у меня есть в Hotels_spyder.py, на этот: http://www.hotels.com/search.do?destina ... 2F15&rooms =1&children[0]=2&searchParams.rooms[0].numberOfAdults=2&searchParams.rooms[0].childrenAges[0]=7&searchParams.rooms[0].childrenAges[1]=7&searchParams.landmark=&searchParams.resolvedLocation=CITY%3A1506246 %3AEXACT_RED%3AHIGH&destinationId=

И это не работает. Я проверил исходный код обеих ссылок, и он один и тот же. Я действительно не понимаю, почему это не работает, и это сводит меня с ума уже неделю.

Заранее спасибо,
Фил>

Подробнее здесь: https://stackoverflow.com/questions/204 ... -a-website

1721908253

Anonymous

Я занимаюсь этим уже пару дней, но до сих пор не могу найти ответ.
Я использую Scrapy (Python), чтобы очистить эту веб-страницу.
Вот мои каталоги:

[code]hotels/
|_ scrapy.cfg
|_ hotels/
|_ __init__.py
|_ items.py
|_ pipelines.py
|_ settings.py
|_ spiders/
|_ __init__.py
|_ hotels_spyder.py
[/code]



Содержимое items.py

[code]from scrapy.item import Item, Field

class HotelsItem(Item):
nameHotel = Field()
idHotel = Field()
[/code]



Содержимое Hotels_spyder.py

[code]from scrapy.spider import BaseSpider
from scrapy.selector import Selector

from hotels.items import HotelsItem

class HotelsSpider(BaseSpider):
name = "hotels"
allowed_domains = ["hotels.com"]
start_urls = ["http://fr.hotels.com/search.do?destination=New+York&arrivalDate=13%2F04%2F2015&departureDate=15%2F04%2F2015&rooms=1&children%5B0%5D=2&searchParams.rooms%5B0%5D.numberOfAdults=2&searchParams.rooms%5B0%5D.childrenAges%5B0%5D=7&searchParams.rooms%5B0%5D.childrenAges%5B1%5D=7&searchParams.landmark=&searchParams.resolvedLocation=CITY%3A1506246%3AEXACT_RED%3AHIGH&destinationId="]

def parse(self, response):
sel = Selector(response)
sites = sel.xpath('//h3[@class="hotel-name"]')
items = []
for site in sites:
item = HotelsItem()
type(item)
item['nameHotel'] = site.xpath('a/text()').extract()
item['idHotel'] = site.xpath('a/@id').extract()
items.append(item)
return items
[/code]



Содержимое файла settings.py

[code]BOT_NAME = 'hotels'

SPIDER_MODULES = ['hotels.spiders']
NEWSPIDER_MODULE = 'hotels.spiders'
[/code]



Так что все это работает правильно. Он делает то, что я хочу (все равно мне приходится чистить места и прочее).

Но моя конечная цель — очистить американскую версию веб-сайта.
Поэтому я попытался заменить список с именем "start_urls", который у меня есть в Hotels_spyder.py, на этот: http://www.hotels.com/search.do?destination=New+York&arrivalDate=03%2F18%2F15&departureDate=03%2F20%2F15&rooms =1&children[0]=2&searchParams.rooms[0].numberOfAdults=2&searchParams.rooms[0].childrenAges[0]=7&searchParams.rooms[0].childrenAges[1]=7&searchParams.landmark=&searchParams.resolvedLocation=CITY%3A1506246 %3AEXACT_RED%3AHIGH&destinationId=

И это не работает. Я проверил исходный код обеих ссылок, и он один и тот же. Я действительно не понимаю, почему это не работает, и это сводит меня с ума уже неделю.

Заранее спасибо,
Фил> 

Подробнее здесь: [url]https://stackoverflow.com/questions/20495731/scrapy-cant-scrape-a-website[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Я пытаюсь парсить сайт bestbuy.com, и мне удается парсить только одну страницу, а не несколько страниц.

Последнее сообщение Anonymous « 17 ноя 2024, 12:29
Добавлено в форуме Python

Anonymous » 17 ноя 2024, 12:29 » в форуме Python

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.chrome.service import Service as ChromeService
from selenium.webdriver.common.by import By
from selenium.webdriver.support import...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
17 ноя 2024, 12:29
Я пытаюсь парсить сайт bestbuy.com, и мне удается парсить только одну страницу, а не несколько страниц.

Последнее сообщение Anonymous « 18 ноя 2024, 19:29
Добавлено в форуме Python

Anonymous » 18 ноя 2024, 19:29 » в форуме Python

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.chrome.service import Service as ChromeService
from selenium.webdriver.common.by import By
from selenium.webdriver.support import...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
18 ноя 2024, 19:29
Как парсить ссылки с динамически загружаемого веб-сайта (Fincaraiz) с помощью Scrapy

Последнее сообщение Гость « 24 сен 2023, 23:41
Добавлено в форуме Python

Гость » 24 сен 2023, 23:41 » в форуме Python

Мне нужна помощь в том, как использовать Scrapy в Python для извлечения данных со следующей страницы

Мне нужно извлечь ссылки каждого элемента , например, первый показывает ссылку на подробную информацию при наведении курсора на фотографию:...

0 Ответы

51 Просмотры

Последнее сообщение Гость
24 сен 2023, 23:41
Как парсить сайт с помощью User-Agent для Ipad?

Последнее сообщение Anonymous « 26 июн 2024, 08:02
Добавлено в форуме Php

Anonymous » 26 июн 2024, 08:02 » в форуме Php

Как я могу очистить сайт с помощью User-Agent для Ipad?

У меня есть этот код ниже, использующий Curl в PHP, который выводит исходный код, но все еще не может найти теги. В браузере Ipad или Safari с использованием пользовательского агента Ipad...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
26 июн 2024, 08:02
Как парсить веб-сайт, http get или http post?

Последнее сообщение Anonymous « 25 июл 2024, 11:30
Добавлено в форуме JAVA

Anonymous » 25 июл 2024, 11:30 » в форуме JAVA

Я новичок в программировании и очень мало знаю о http, но я написал код для парсинга веб-сайта на Java и столкнулся с проблемой, заключающейся в том, что мой код получает http-вызовы (на основе ввода URL-адреса). ), но я не знаю, как очистить данные...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
25 июл 2024, 11:30

Вернуться в «Python»