К сожалению, все примеры, которые я нашел, используют модуль конвейера dagster.
В текущей версии этот плагин конвейера отсутствует.
У меня есть этот парсер и его функция анализа, которая возвращает все заголовки документа.
Эти заголовки должны использоваться в активе. Как соединить ресурс и сканер?
Код: Выделить всё
import scrapy
from dagster import asset, AssetExecutionContext
class MySpider(scrapy.Spider):
name = 'headless'
def start_requests(self):
urls = ['http://google.com'] # Geben Sie hier die URL der HTML-Seite ein
for url in urls:
yield scrapy.Request(url=url, callback=self.parse)
def parse(self, response):
headlines = response.css('h1::text').getall()
yield {'headlines': headlines}
spider = MySpider()
@asset()
def headlines(context: AssetExecutionContext):
headlines = spider.parse()
Подробнее здесь: https://stackoverflow.com/questions/791 ... ine-module
Мобильная версия