Проблема с производительностью при записи Polars.DataFrame в файл .parquet

Проблема с производительностью при записи Polars.DataFrame в файл .parquet ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Проблема с производительностью при записи Polars.DataFrame в файл .parquet

Цитата

Сообщение Anonymous » 08 ноя 2024, 16:15

Описание:
Я обновляю свой набор данных (в формате Parquet), но столкнулся с проблемами производительности. Набор данных довольно большой (28 миллионов строк), поэтому я не могу опубликовать его здесь полностью, но (надеюсь) четко опишу проблему.
Проблема возникает при объединении два DataFrame и запишите результат обратно в Parquet. Вот упрощенный код:

Код: Выделить всё

df_old.write_parquet("df_old.parquet") # costs 5.8s
df_to_append.write_parquet("df_to_append.parquet") # costs 0.4s

result = pl.concat([df_old, df_to_append])
result.write_parquet("result.parquet") # costs 1m 37.3s !

Кроме того, чтение этого файла паркета происходит медленно.

Код: Выделить всё

pl.read_parquet("df_old.parquet") # 0.5s
pl.read_parquet("df_to_append.parquet") # 0.0s
pl.read_parquet("result.parquet") # 3.6s !

Я попробовал это в своем офисе, медленно. А теперь дома, очень медленно. Так что я думаю, это не зависит от машины.

Что я пробовал:

количество строк выглядит корректным, как и ожидалось.

Код: Выделить всё

df_old
# shape: (27_796_178, 13)

df_to_append
# shape: (1_144_920, 13)

result
# shape: (28_941_098, 13)

[*]Схемы для df_old и df_to_append идентичны, и они также соответствуют результату.

Код: Выделить всё

df_old.schema
Output: Schema([('datetime', Datetime(time_unit='ns', time_zone=None)),
('trading_date', Date),
('sec_code', String),
('contract_code', String),
('open', Float64),
('high', Float64),
('low', Float64),
('close', Float64),
('vwap', Float64),
('open_interest', Float64),
('volume', Float64),
('amount', Float64),
('offset', Int64)])

df_to_append.schema
Output: Schema([('datetime', Datetime(time_unit='ns', time_zone=None)),
('trading_date', Date),
('sec_code', String),
('contract_code', String),
('open', Float64),
('high', Float64),
('low', Float64),
('close', Float64),
('vwap', Float64),
('open_interest', Float64),
('volume', Float64),
('amount', Float64),
('offset', Int64)])

result.schema
Output:Schema([('datetime', Datetime(time_unit='ns', time_zone=None)),
('trading_date', Date),
('sec_code', String),
('contract_code', String),
('open', Float64),
('high', Float64),
('low', Float64),
('close', Float64),
('vwap', Float64),
('open_interest', Float64),
('volume', Float64),
('amount', Float64),
('offset', Int64)])

Несмотря на эти проверки, я по-прежнему сталкиваюсь с огромной задержкой при записи объединенного результата в Parquet. Я понятия не имею, что делать дальше. Будем очень признательны за любую помощь или идеи!
Дополнительная информация:
Python 3.13 с полярными версиями 1.12.0
Вот пример представления df_old:
df_old:polars.DataFrame

Подробнее здесь: https://stackoverflow.com/questions/791 ... rquet-file

1731071718

Anonymous

Описание:
Я обновляю свой набор данных (в формате Parquet), но столкнулся с проблемами производительности. Набор данных довольно большой (28 миллионов строк), поэтому я не могу опубликовать его здесь полностью, но (надеюсь) четко опишу проблему.
Проблема возникает при объединении два DataFrame и запишите результат обратно в Parquet. Вот упрощенный код:
[code]df_old.write_parquet("df_old.parquet") # costs 5.8s
df_to_append.write_parquet("df_to_append.parquet") # costs 0.4s

result = pl.concat([df_old, df_to_append])
result.write_parquet("result.parquet") # costs 1m 37.3s !
[/code]
Кроме того, чтение этого файла паркета происходит медленно.
[code]pl.read_parquet("df_old.parquet") # 0.5s
pl.read_parquet("df_to_append.parquet") # 0.0s
pl.read_parquet("result.parquet") # 3.6s !
[/code]
[list]
[*]Я попробовал это в своем офисе, медленно. А теперь дома, очень медленно. Так что я думаю, это не зависит от машины.
[/list]
Что я пробовал:
[list]
[*] количество строк выглядит корректным, как и ожидалось.
[/list]
[code]df_old
# shape: (27_796_178, 13)

df_to_append
# shape: (1_144_920, 13)

result
# shape: (28_941_098, 13)
[/code]

[*]Схемы для df_old и df_to_append идентичны, и они также соответствуют результату.

[code]df_old.schema
Output: Schema([('datetime', Datetime(time_unit='ns', time_zone=None)),
('trading_date', Date),
('sec_code', String),
('contract_code', String),
('open', Float64),
('high', Float64),
('low', Float64),
('close', Float64),
('vwap', Float64),
('open_interest', Float64),
('volume', Float64),
('amount', Float64),
('offset', Int64)])

df_to_append.schema
Output: Schema([('datetime', Datetime(time_unit='ns', time_zone=None)),
('trading_date', Date),
('sec_code', String),
('contract_code', String),
('open', Float64),
('high', Float64),
('low', Float64),
('close', Float64),
('vwap', Float64),
('open_interest', Float64),
('volume', Float64),
('amount', Float64),
('offset', Int64)])

result.schema
Output:Schema([('datetime', Datetime(time_unit='ns', time_zone=None)),
('trading_date', Date),
('sec_code', String),
('contract_code', String),
('open', Float64),
('high', Float64),
('low', Float64),
('close', Float64),
('vwap', Float64),
('open_interest', Float64),
('volume', Float64),
('amount', Float64),
('offset', Int64)])

[/code]
Несмотря на эти проверки, я по-прежнему сталкиваюсь с огромной задержкой при записи объединенного результата в Parquet. Я понятия не имею, что делать дальше. Будем очень признательны за любую помощь или идеи!
Дополнительная информация:
Python 3.13 с полярными версиями 1.12.0
Вот пример представления df_old:
df_old:polars.DataFrame 

Подробнее здесь: [url]https://stackoverflow.com/questions/79170171/performance-issue-when-writing-polars-dataframe-to-parquet-file[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Потоковая потоковая передача Polars: Parquet Parquet на основе Shift (-1)

Последнее сообщение Anonymous « 20 авг 2025, 09:32
Добавлено в форуме Python

Anonymous » 20 авг 2025, 09:32 » в форуме Python

Я пытаюсь погрузиться в большой паркетный файл с полярными. Это должно быть легко достичь в (1) памяти:
import os ; os.environ = '4'
import polars as pl
import time, random
import numpy as np
random.seed(42)

N_TICKS = 100_000
N_TICKERS = 10_000
T0...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
20 авг 2025, 09:32
Чтение файлов Parquet с использованием parquet.net занимает больше времени, чем Pyarrow (Python)

Последнее сообщение Anonymous « 29 май 2025, 13:59
Добавлено в форуме Python

Anonymous » 29 май 2025, 13:59 » в форуме Python

Обычно, когда дело доходит до операций с файлами паркета, пакет Parquet.net занимает меньше/равное время по сравнению с Python. Но мой первоначальный набор экспериментов не соответствует этому. Чтение 5 миллионов данных в Parquet Python занимает...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
29 май 2025, 13:59
Java.lang.UnsatisfiedLinkError в PySpark при записи в файл Parquet в Windows

Последнее сообщение Anonymous « 24 июл 2024, 22:03
Добавлено в форуме Python

Anonymous » 24 июл 2024, 22:03 » в форуме Python

Я написал следующий код:
from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import re
import os

os.environ = 'D:\\hadoop'
os.environ += os.pathsep + os.path.join(os.environ , 'bin')
os.environ = '(...entire...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
24 июл 2024, 22:03
Как прочитать файл Parquet в Pandas DataFrame?

Последнее сообщение Anonymous « 29 фев 2024, 19:50
Добавлено в форуме Python

Anonymous » 29 фев 2024, 19:50 » в форуме Python

Как прочитать набор данных Parquet небольшого размера в фрейм данных Pandas в памяти без настройки инфраструктуры кластерных вычислений, такой как Hadoop или Spark? Это лишь умеренный объем данных, который я хотел бы прочитать в памяти с помощью...

0 Ответы

52 Просмотры

Последнее сообщение Anonymous
29 фев 2024, 19:50
Добавьте столбец даты для каждого файла с помощью Polars при агрегировании нескольких файлов Parquet.

Последнее сообщение Anonymous « 10 ноя 2024, 22:19
Добавлено в форуме Python

Anonymous » 10 ноя 2024, 22:19 » в форуме Python

У меня есть очень большое количество файлов данных Parquet, которые я могу легко объединить и агрегировать с помощью Polars, делая что-то вроде этого (обратите внимание на глобус в имени файла):
(
pl.scan_parquet('data/data-16828*.parquet')...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
10 ноя 2024, 22:19

Вернуться в «Python»