Scrapy TSV скачать файл. как конвертировать файл в паркет перед загрузкой на s3Python

Программы на Python
Ответить
Anonymous
 Scrapy TSV скачать файл. как конвертировать файл в паркет перед загрузкой на s3

Сообщение Anonymous »

У меня есть рабочий проект Scrapy, который загружает файлы TSV и сохраняет их в s3.
Я использую собственный конвейер для сохранения исходных имен файлов с датами.
Мне интересно, можно ли конвертировать tsv файлы в паркет перед загрузкой их в s3. Если да, то как мне это сделать в Scrapy?
Я должен отметить, что я могу конвертировать файлы локально (последний блок кода), но хотел бы сделать это встроенным, прежде чем они будут загружены в s3.
Это то, над чем я сейчас работаю....
##items
class DownfilesItem(scrapy.Item):
file_urls = scrapy.Field()
files = scrapy.Field()
original_file_name = scrapy.Field()
date = scrapy.Field()

##pipeline to save original file names with dates
class OriginalNameFilesPipeline(FilesPipeline):
def file_path(self, request, response=None, info=None):
test = request
file_name_xml = request.url.split("=")[-1]
file_name: str = file_name_xml.removesuffix('.tsv') + '_' + datetime.today().strftime("%Y%m%d") + '.' + file_name_xml.split(".")[-1]
return file_name

##in my scraper
def parse_all_items(self, response):
all_urls = [bunch or urls]

for url in all_urls:
item = DownfilesItem()
item['file_urls'] = item['original_file_name'] = url.split ... load-to-s3
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»