Подключение веб-скрейпера к активу в Dagster без модуля PipelinePython

Программы на Python
Ответить
Anonymous
 Подключение веб-скрейпера к активу в Dagster без модуля Pipeline

Сообщение Anonymous »

Я хочу очистить содержимое веб-сайта в dagster с помощью Scrappy.
К сожалению, все примеры, которые я нашел, используют модуль конвейера dagster.
В текущей версии этот плагин конвейера отсутствует.
У меня есть этот парсер и его функция анализа, которая возвращает все заголовки документа.
Эти заголовки должны использоваться в активе. Как соединить ресурс и сканер?

Код: Выделить всё

    import scrapy
from dagster import asset, AssetExecutionContext

class MySpider(scrapy.Spider):
name = 'headless'

def start_requests(self):
urls = ['http://google.com']  # Geben Sie hier die URL der HTML-Seite ein
for url in urls:
yield scrapy.Request(url=url, callback=self.parse)

def parse(self, response):
headlines = response.css('h1::text').getall()
yield {'headlines': headlines}

spider = MySpider()

@asset()
def headlines(context: AssetExecutionContext):
headlines = spider.parse()
Это всего лишь нерабочий пример, по которому мне нужен совет.

Подробнее здесь: https://stackoverflow.com/questions/791 ... ine-module
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»