Загрузите, извлеките и прочитайте файл gzip на Python.

Загрузите, извлеките и прочитайте файл gzip на Python. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Загрузите, извлеките и прочитайте файл gzip на Python.

Цитата

Сообщение Anonymous » 24 ноя 2024, 15:15

Я хотел бы загрузить, извлечь и перебрать текстовый файл на Python без необходимости создавать временные файлы.

По сути, это канал, но на Python< /p>

Код: Выделить всё

curl ftp://ftp.theseed.org/genomes/SEED/SEED.fasta.gz | gunzip | processing step

Вот мой код:

Код: Выделить всё

def main():
import urllib
import gzip

# Download SEED database
print 'Downloading SEED Database'
handle = urllib.urlopen('ftp://ftp.theseed.org/genomes/SEED/SEED.fasta.gz')

with open('SEED.fasta.gz', 'wb') as out:
while True:
data = handle.read(1024)
if len(data) == 0: break
out.write(data)

# Extract SEED database
handle = gzip.open('SEED.fasta.gz')
with open('SEED.fasta', 'w') as out:
for line in handle:
out.write(line)

# Filter SEED database
pass

Я не хочу использовать Process.Popen() или что-то еще, потому что я хочу, чтобы этот скрипт был независимым от платформы.

Проблема в том, что библиотека Gzip принимает в качестве аргументов только имена файлов, а не дескрипторы. Причина «конвейера» заключается в том, что этап загрузки использует только ~5% ЦП, и одновременное извлечение и обработка будут выполняться быстрее.

РЕДАКТИРОВАТЬ:
Это не сработает, потому что

"Из-за особенностей сжатия
gzip
GzipFile необходимо сохранить его
положение и перемещаться вперед и
назад по сжатому файлу.
Это не работает, когда «файл» представляет собой
поток байтов, поступающий с удаленного
> сервер; все, что вы можете с ним делать, это
получать байты по одному, а не перемещаться
вперед и назад по потоку данных
." - погрузитесь в Python

Вот почему я получаю ошибку

Код: Выделить всё

AttributeError: addinfourl instance has no attribute 'tell'

Итак, как же завить URL | застегнуть молнию | что работает?

Подробнее здесь: https://stackoverflow.com/questions/354 ... -in-python

1732450550

Anonymous

Я хотел бы загрузить, извлечь и перебрать текстовый файл на Python без необходимости создавать временные файлы.

По сути, это канал, но на Python< /p>

[code]curl ftp://ftp.theseed.org/genomes/SEED/SEED.fasta.gz | gunzip | processing step
[/code]

Вот мой код:

[code]def main():
import urllib
import gzip

# Download SEED database
print 'Downloading SEED Database'
handle = urllib.urlopen('ftp://ftp.theseed.org/genomes/SEED/SEED.fasta.gz')

with open('SEED.fasta.gz', 'wb') as out:
while True:
data = handle.read(1024)
if len(data) == 0: break
out.write(data)

# Extract SEED database
handle = gzip.open('SEED.fasta.gz')
with open('SEED.fasta', 'w') as out:
for line in handle:
out.write(line)

# Filter SEED database
pass
[/code]

Я не хочу использовать Process.Popen() или что-то еще, потому что я хочу, чтобы этот скрипт был независимым от платформы.

Проблема в том, что библиотека Gzip принимает в качестве аргументов только имена файлов, а не дескрипторы.  Причина «конвейера» заключается в том, что этап загрузки использует только ~5% ЦП, и одновременное извлечение и обработка будут выполняться быстрее.



[b]РЕДАКТИРОВАТЬ[/b]:
Это не сработает, потому что


"Из-за особенностей сжатия
gzip
GzipFile необходимо сохранить его
положение и перемещаться вперед и
назад по сжатому файлу.
Это не работает, когда «файл» представляет собой
поток байтов, поступающий с удаленного
> сервер; все, что вы можете с ним делать, это
получать байты по одному, а не перемещаться
вперед и назад по потоку данных
." - погрузитесь в Python


Вот почему я получаю ошибку

[code]AttributeError: addinfourl instance has no attribute 'tell'
[/code]

Итак, как же завить URL | застегнуть молнию | что работает? 

Подробнее здесь: [url]https://stackoverflow.com/questions/3548495/download-extract-and-read-a-gzip-file-in-python[/url]