Оптимальный по производительности способ сериализации объектов Python с большими кадрами данных PandasPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Оптимальный по производительности способ сериализации объектов Python с большими кадрами данных Pandas

Сообщение Anonymous »

Я имею дело с объектами Python, содержащими объекты Pandas DataFrame и Numpy Series. Они могут быть большими, в несколько миллионов строк.
Например:

Код: Выделить всё

@dataclass
class MyWorld:
# A lot of DataFrames with millions of rows
samples: pd.DataFrame
addresses: pd.DataFrame
# etc.
Мне нужно кэшировать эти объекты, и я надеюсь найти эффективный и безболезненный способ их сериализации. Существуют ли какие-либо специализированные сериализаторы Python для таких объектов, которые автоматически собирали бы данные Series с помощью какого-либо эффективного кодека и сжатия? В качестве альтернативы мне нужно вручную создать несколько файлов Parquet, но для этого потребуется много ручного кода, и я бы предпочел избежать этого, если это возможно.
Я знаю об этом joblib.dump(), который творит некоторые магические действия с объектами такого типа, но, судя по документации, я не уверен, актуально ли это сейчас.

Подробнее здесь: https://stackoverflow.com/questions/790 ... dataframes
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»