Оптимальный по производительности способ сериализации объектов Python, содержащих большие фреймы данных Pandas

Оптимальный по производительности способ сериализации объектов Python, содержащих большие фреймы данных Pandas ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Оптимальный по производительности способ сериализации объектов Python, содержащих большие фреймы данных Pandas

Цитата

Сообщение Anonymous » 04 окт 2024, 20:26

Я имею дело с объектами Python, содержащими объекты Pandas DataFrame и Numpy Series. Они могут быть большими, в несколько миллионов строк.
Например:

Код: Выделить всё

@dataclass
class MyWorld:
# A lot of DataFrames with millions of rows
samples: pd.DataFrame
addresses: pd.DataFrame
# etc.

Мне нужно кэшировать эти объекты, и я надеюсь найти эффективный и безболезненный способ их сериализации вместо стандартного Pickle.dump(). Существуют ли какие-либо специализированные сериализаторы Python для таких объектов, которые автоматически собирали бы данные Series с помощью какого-либо эффективного кодека и сжатия? В качестве альтернативы мне нужно вручную создать несколько файлов Parquet, но для этого потребуется много ручного кода, и я бы предпочел избежать этого, если это возможно.
Производительность здесь может означать

Скорость
Размер файла (может быть связан, так как вам нужно меньше читать с диска/сети)< /li>

Мне известен метод joblib.dump(), который творит некую магию с объектами такого типа, но, основываясь на документации, я не уверен, актуально ли это сейчас.

Подробнее здесь: https://stackoverflow.com/questions/790 ... andas-data

1728062797

Anonymous

Я имею дело с объектами Python, содержащими объекты Pandas DataFrame и Numpy Series. Они могут быть большими, в несколько миллионов строк.
Например:
[code]
@dataclass
class MyWorld:
# A lot of DataFrames with millions of rows
samples: pd.DataFrame
addresses: pd.DataFrame
# etc.
[/code]
Мне нужно кэшировать эти объекты, и я надеюсь найти эффективный и безболезненный способ их сериализации вместо стандартного Pickle.dump(). Существуют ли какие-либо специализированные сериализаторы Python для таких объектов, которые автоматически собирали бы данные Series с помощью какого-либо эффективного кодека и сжатия? В качестве альтернативы мне нужно вручную создать несколько файлов Parquet, но для этого потребуется много ручного кода, и я бы предпочел избежать этого, если это возможно.
Производительность здесь может означать 
[list]
[*]Скорость
Размер файла (может быть связан, так как вам нужно меньше читать с диска/сети)< /li>
[/list]
Мне известен метод joblib.dump(), который творит некую магию с объектами такого типа, но, основываясь на документации, я не уверен, актуально ли это сейчас. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79034526/performance-optimal-way-to-serialise-python-objects-containing-large-pandas-data[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Оптимальный по производительности способ сериализации объектов Python, содержащих большие фреймы данных Pandas

Последнее сообщение Anonymous « 01 окт 2024, 20:34
Добавлено в форуме Python

Anonymous » 01 окт 2024, 20:34 » в форуме Python

Я имею дело с объектами Python, содержащими объекты Pandas DataFrame и Numpy Series. Это могут быть большие строки, несколько миллионов строк.
Например:

@dataclass
class MyWorld:
# A lot of DataFrames with millions of rows
samples: pd.DataFrame...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
01 окт 2024, 20:34
Оптимальный по производительности способ сериализации объектов Python, содержащих большие фреймы данных Pandas

Последнее сообщение Anonymous « 02 окт 2024, 02:13
Добавлено в форуме Python

Anonymous » 02 окт 2024, 02:13 » в форуме Python

Я имею дело с объектами Python, содержащими объекты Pandas DataFrame и Numpy Series. Это могут быть большие строки, несколько миллионов строк.
Например:

@dataclass
class MyWorld:
# A lot of DataFrames with millions of rows
samples: pd.DataFrame...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
02 окт 2024, 02:13
Оптимальный по производительности способ сериализации объектов Python, содержащих большие фреймы данных Pandas

Последнее сообщение Anonymous « 02 окт 2024, 09:59
Добавлено в форуме Python

Anonymous » 02 окт 2024, 09:59 » в форуме Python

Я имею дело с объектами Python, содержащими объекты Pandas DataFrame и Numpy Series. Это могут быть большие строки, несколько миллионов строк.
Например:

@dataclass
class MyWorld:
# A lot of DataFrames with millions of rows
samples: pd.DataFrame...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
02 окт 2024, 09:59
Оптимальный по производительности способ сериализации объектов Python, содержащих большие фреймы данных Pandas

Последнее сообщение Anonymous « 07 окт 2024, 16:31
Добавлено в форуме Python

Anonymous » 07 окт 2024, 16:31 » в форуме Python

Я имею дело с объектами Python, содержащими объекты Pandas DataFrame и Numpy Series. Это могут быть большие строки, несколько миллионов строк.
Например:

@dataclass
class MyWorld:
# A lot of DataFrames with millions of rows
samples: pd.DataFrame...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
07 окт 2024, 16:31
Оптимальный по производительности способ сериализации объектов Python, содержащих большие фреймы данных Pandas

Последнее сообщение Anonymous « 08 окт 2024, 20:44
Добавлено в форуме Python

Anonymous » 08 окт 2024, 20:44 » в форуме Python

Я имею дело с объектами Python, содержащими объекты Pandas DataFrame и Numpy Series. Это могут быть большие строки, несколько миллионов строк.
Например:

@dataclass
class MyWorld:
# A lot of DataFrames with millions of rows
samples: pd.DataFrame...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
08 окт 2024, 20:44

Вернуться в «Python»