Scrapy: возвращает список относительных URL-адресов, где встречается определенное слово

Scrapy: возвращает список относительных URL-адресов, где встречается определенное слово ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Scrapy: возвращает список относительных URL-адресов, где встречается определенное слово

Цитата

Сообщение Anonymous » 30 дек 2024, 10:22

На этом веб-сайте есть множество карточек, которые доступны в разных частях сайта. Я пытаюсь очистить сайт, чтобы вернуть все его экземпляры (в виде URL-адреса) на основе заголовка. Например, карточка под названием «Программа безопасности школ AZ» находится по адресу: https://lawforkids.org/officers & https://lawforkids.org/educators. Моя цель состоит в том, чтобы Scrapy сделал это за меня, вместо того, чтобы вручную находить каждый экземпляр.

Код: Выделить всё

import scrapy

class PostsSpider(scrapy.Spider):

name = "card"

start_urls = [ 'https://lawforkids.org/',]

def parse(self, response):

for card in response.css('h5.card-title::text').re(r'AZ School Safety Program'):
yield{
'url': card.css('base::attr(href)').getall()
}

Помимо того, что я не уверен в правильности выбора URL-адреса, моя попытка сканирования приводит к следующему:
Обратный вызов PostsSpider.parse не определен. Любая информация очень ценится, спасибо!

Подробнее здесь: https://stackoverflow.com/questions/793 ... rd-appears

1735543353

Anonymous

На этом веб-сайте есть множество карточек, которые доступны в разных частях сайта. Я пытаюсь очистить сайт, чтобы вернуть все его экземпляры (в виде URL-адреса) на основе заголовка. Например, карточка под названием «Программа безопасности школ AZ» находится по адресу: https://lawforkids.org/officers & https://lawforkids.org/educators. Моя цель состоит в том, чтобы Scrapy сделал это за меня, вместо того, чтобы вручную находить каждый экземпляр.
[code]import scrapy

class PostsSpider(scrapy.Spider):

name = "card"

start_urls = [ 'https://lawforkids.org/',]

def parse(self, response):

for card in response.css('h5.card-title::text').re(r'AZ School Safety Program'):
yield{
'url': card.css('base::attr(href)').getall()
}
[/code]
Помимо того, что я не уверен в правильности выбора URL-адреса, моя попытка сканирования приводит к следующему:
Обратный вызов PostsSpider.parse не определен. Любая информация очень ценится, спасибо! 

Подробнее здесь: [url]https://stackoverflow.com/questions/79315041/scrapy-return-list-of-relative-urls-where-a-where-a-certain-word-appears[/url]