Подключение веб-скрейпера к активу в Dagster без модуля Pipeline

Подключение веб-скрейпера к активу в Dagster без модуля Pipeline ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Подключение веб-скрейпера к активу в Dagster без модуля Pipeline

Цитата

Сообщение Anonymous » 27 ноя 2024, 08:59

Я хочу очистить содержимое веб-сайта в dagster с помощью Scrappy.
К сожалению, все примеры, которые я нашел, используют модуль конвейера dagster.
В текущей версии этот плагин конвейера отсутствует.
У меня есть этот парсер и его функция анализа, которая возвращает все заголовки документа.
Эти заголовки должны использоваться в активе. Как соединить ресурс и сканер?

Код: Выделить всё

    import scrapy
from dagster import asset, AssetExecutionContext

class MySpider(scrapy.Spider):
name = 'headless'

def start_requests(self):
urls = ['http://google.com']  # Geben Sie hier die URL der HTML-Seite ein
for url in urls:
yield scrapy.Request(url=url, callback=self.parse)

def parse(self, response):
headlines = response.css('h1::text').getall()
yield {'headlines': headlines}

spider = MySpider()

@asset()
def headlines(context: AssetExecutionContext):
headlines = spider.parse()

Это всего лишь нерабочий пример, по которому мне нужен совет.

Подробнее здесь: https://stackoverflow.com/questions/791 ... ine-module

1732687151

Anonymous

Я хочу очистить содержимое веб-сайта в dagster с помощью Scrappy.
К сожалению, все примеры, которые я нашел, используют модуль конвейера dagster.
В текущей версии этот плагин конвейера отсутствует. 
У меня есть этот парсер и его функция анализа, которая возвращает все заголовки документа.
Эти заголовки должны использоваться в активе. Как соединить ресурс и сканер?
[code]    import scrapy
from dagster import asset, AssetExecutionContext

class MySpider(scrapy.Spider):
name = 'headless'

def start_requests(self):
urls = ['http://google.com']  # Geben Sie hier die URL der HTML-Seite ein
for url in urls:
yield scrapy.Request(url=url, callback=self.parse)

def parse(self, response):
headlines = response.css('h1::text').getall()
yield {'headlines': headlines}

spider = MySpider()

@asset()
def headlines(context: AssetExecutionContext):
headlines = spider.parse()
[/code]
Это всего лишь нерабочий пример, по которому мне нужен совет. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79198264/connecting-a-web-scraper-to-an-asset-in-dagster-without-the-pipeline-module[/url]