Как извлечь файлы .zst в фрейм данных pandasPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как извлечь файлы .zst в фрейм данных pandas

Сообщение Anonymous »

Я немного новичок в Python, но один из моих школьных проектов требует, чтобы я выполнил алгоритмы классификации на этом наборе данных популярности Reddit. Это огромные файлы .zst, их можно найти здесь: https://files.pushshift.io/reddit/submissions/
В любом случае, я просто не уверен, как извлечь это в базу данных, поскольку задания до сих пор мы использовали только наборы данных .csv, которые я мог легко поместить в фрейм данных pandas.
Я наткнулся на другой пост и попробовал использовать код:

Код: Выделить всё

    def transform_zst_file(self,infile):
zst_num_bytes = 2**22
lines_read = 0
dctx = zstd.ZstdDecompressor()
with dctx.stream_reader(infile) as reader:
previous_line = ""
while True:
chunk = reader.read(zst_num_bytes)
if not chunk:
break
string_data = chunk.decode('utf-8')
lines = string_data.split("\n")
for i, line in enumerate(lines[:-1]):
if i == 0:
line = previous_line + line
self.appendData(line, self.type)
lines_read += 1
if self.max_lines_to_read and lines_read >= self.max_lines_to_read:
return
previous_line = lines[-1]
Но я не совсем уверен, как поместить это в фрейм данных pandas или поместить в фрейм данных только определенный процент точек данных, если файл слишком большой.
Буду очень признателен за любую помощь!

Следующий код приводит к сбою моего компьютера каждый раз, когда я пытаюсь его запустить:

Код: Выделить всё

import zstandard as zstd
your_filename = "..."
with open(your_filename, "rb") as f:
data = f.read()

dctx = zstd.ZstdDecompressor()
decompressed = dctx.decompress(data)
Может быть из-за слишком большого размера файла, можно ли как-нибудь извлечь только процент этого файла в кадр данных pandas?

Подробнее здесь: https://stackoverflow.com/questions/610 ... -dataframe
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»