Оптимальный по производительности способ сериализации объектов Python с большими кадрами данных Pandas

Оптимальный по производительности способ сериализации объектов Python с большими кадрами данных Pandas ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Оптимальный по производительности способ сериализации объектов Python с большими кадрами данных Pandas

Цитата

Сообщение Anonymous » 28 сен 2024, 18:16

Я имею дело с объектами Python, содержащими объекты Pandas DataFrame и Numpy Series. Они могут быть большими, в несколько миллионов строк.
Например:

Код: Выделить всё

@dataclass
class MyWorld:
# A lot of DataFrames with millions of rows
samples: pd.DataFrame
addresses: pd.DataFrame
# etc.

Мне нужно кэшировать эти объекты, и я надеюсь найти эффективный и безболезненный способ их сериализации. Существуют ли какие-либо специализированные сериализаторы Python для таких объектов, которые автоматически собирали бы данные Series с помощью какого-либо эффективного кодека и сжатия? В качестве альтернативы мне нужно вручную создать несколько файлов Parquet, но для этого потребуется много ручного кода, и я бы предпочел избежать этого, если это возможно.
Я знаю об этом joblib.dump(), который творит некоторые магические действия с объектами такого типа, но, судя по документации, я не уверен, актуально ли это сейчас.

Подробнее здесь: https://stackoverflow.com/questions/790 ... dataframes

1727536608

Anonymous

Я имею дело с объектами Python, содержащими объекты Pandas DataFrame и Numpy Series. Они могут быть большими, в несколько миллионов строк.
Например:
[code]
@dataclass
class MyWorld:
# A lot of DataFrames with millions of rows
samples: pd.DataFrame
addresses: pd.DataFrame
# etc.
[/code]
Мне нужно кэшировать эти объекты, и я надеюсь найти эффективный и безболезненный способ их сериализации. Существуют ли какие-либо специализированные сериализаторы Python для таких объектов, которые автоматически собирали бы данные Series с помощью какого-либо эффективного кодека и сжатия? В качестве альтернативы мне нужно вручную создать несколько файлов Parquet, но для этого потребуется много ручного кода, и я бы предпочел избежать этого, если это возможно.
Я знаю об этом joblib.dump(), который творит некоторые магические действия с объектами такого типа, но, судя по документации, я не уверен, актуально ли это сейчас. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79034526/performance-optimal-way-to-serialise-python-objects-with-large-pandas-dataframes[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Оптимальный по производительности способ сериализации объектов Python, содержащих большие фреймы данных Pandas

Последнее сообщение Anonymous « 01 окт 2024, 20:34
Добавлено в форуме Python

Anonymous » 01 окт 2024, 20:34 » в форуме Python

Я имею дело с объектами Python, содержащими объекты Pandas DataFrame и Numpy Series. Это могут быть большие строки, несколько миллионов строк.
Например:

@dataclass
class MyWorld:
# A lot of DataFrames with millions of rows
samples: pd.DataFrame...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
01 окт 2024, 20:34
Оптимальный по производительности способ сериализации объектов Python, содержащих большие фреймы данных Pandas

Последнее сообщение Anonymous « 02 окт 2024, 02:13
Добавлено в форуме Python

Anonymous » 02 окт 2024, 02:13 » в форуме Python

Я имею дело с объектами Python, содержащими объекты Pandas DataFrame и Numpy Series. Это могут быть большие строки, несколько миллионов строк.
Например:

@dataclass
class MyWorld:
# A lot of DataFrames with millions of rows
samples: pd.DataFrame...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
02 окт 2024, 02:13
Оптимальный по производительности способ сериализации объектов Python, содержащих большие фреймы данных Pandas

Последнее сообщение Anonymous « 02 окт 2024, 09:59
Добавлено в форуме Python

Anonymous » 02 окт 2024, 09:59 » в форуме Python

Я имею дело с объектами Python, содержащими объекты Pandas DataFrame и Numpy Series. Это могут быть большие строки, несколько миллионов строк.
Например:

@dataclass
class MyWorld:
# A lot of DataFrames with millions of rows
samples: pd.DataFrame...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
02 окт 2024, 09:59
Оптимальный по производительности способ сериализации объектов Python, содержащих большие фреймы данных Pandas

Последнее сообщение Anonymous « 04 окт 2024, 20:26
Добавлено в форуме Python

Anonymous » 04 окт 2024, 20:26 » в форуме Python

Я имею дело с объектами Python, содержащими объекты Pandas DataFrame и Numpy Series. Они могут быть большими, в несколько миллионов строк.
Например:

@dataclass
class MyWorld:
# A lot of DataFrames with millions of rows
samples: pd.DataFrame...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
04 окт 2024, 20:26
Оптимальный по производительности способ сериализации объектов Python, содержащих большие фреймы данных Pandas

Последнее сообщение Anonymous « 07 окт 2024, 16:31
Добавлено в форуме Python

Anonymous » 07 окт 2024, 16:31 » в форуме Python

Я имею дело с объектами Python, содержащими объекты Pandas DataFrame и Numpy Series. Это могут быть большие строки, несколько миллионов строк.
Например:

@dataclass
class MyWorld:
# A lot of DataFrames with millions of rows
samples: pd.DataFrame...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
07 окт 2024, 16:31

Вернуться в «Python»