Линейная подгонка в пределах Rolling_map медленная для Python-поляров

Линейная подгонка в пределах Rolling_map медленная для Python-поляров ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Линейная подгонка в пределах Rolling_map медленная для Python-поляров

Цитата

Сообщение Anonymous » 22 фев 2026, 13:52

У меня есть набор данных временных рядов в виде поляры (v0.20.6) pl.DataFrame, который имеет сильную сезонность, которая хорошо прогнозируется и моделируется с помощью (линейных) прогнозов на один час вперед.
На данный момент это невероятно медленно, вызывает проблемы с памятью и, в конечном итоге, сбой ядра Python.
В качестве примера я использую строку pl.DataFrame размером ~2 м с ~300 столбцами, что является набор данных временных рядов с ежеминутной частотой. На этих данных я выполняю

Код: Выделить всё

def ols_slope(y: pl.Expr) -> pl.Expr:
# Calculate linear regression slope
x = y.rank("ordinal")
numerator = ((x - x.mean())*(y - y.mean())).sum()
denominator = ((x - x.mean())**2).sum()
return numerator / denominator

Код: Выделить всё

def ols_offset(y: pl.Expr) -> pl.Expr:
# Calculate linear regression offset
x = y.rank("ordinal")
numerator = ((x - x.mean())*(y - y.mean())).sum()
denominator = ((x - x.mean())**2).sum()
return (numerator / denominator) * x.mean() - y.mean()

в столбце date_utc+value, чтобы получить локальную линейную подгонку с помощью

Код: Выделить всё

raw_data = (
pl.read_ipc("../data_vault_1min.feather")
.with_columns(
[
pl.col("A1").rolling_map(ols_slope, window_size=60, min_periods=3).alias("A1_hourly_lin_pred"),
pl.col("A1").rolling_map(ols_slope, window_size=60, min_periods=3).alias("A1_hourly_lin_pred")
]
)
)

Насколько я вижу, под капотом выполняется функция group_by_dynamic(), от которой я ожидаю достаточно высокой производительности.
Тем не менее, эта единственная операция всегда полностью перегружает мою память и приводит к сбою ядра.
Она хорошо работает на небольшом подмножестве данных

Подробнее здесь: https://stackoverflow.com/questions/782 ... hon-polars

1771757562

Anonymous

У меня есть набор данных временных рядов в виде поляры (v0.20.6) pl.DataFrame, который имеет сильную сезонность, которая хорошо прогнозируется и моделируется с помощью (линейных) прогнозов на один час вперед.
На данный момент это невероятно медленно, вызывает проблемы с памятью и, в конечном итоге, сбой ядра Python.
В качестве примера я использую строку pl.DataFrame размером ~2 м с ~300 столбцами, что является набор данных временных рядов с ежеминутной частотой. На этих данных я выполняю
[code]def ols_slope(y: pl.Expr) -> pl.Expr:
# Calculate linear regression slope
x = y.rank("ordinal")
numerator = ((x - x.mean())*(y - y.mean())).sum()
denominator = ((x - x.mean())**2).sum()
return numerator / denominator
[/code]
[code]def ols_offset(y: pl.Expr) -> pl.Expr:
# Calculate linear regression offset
x = y.rank("ordinal")
numerator = ((x - x.mean())*(y - y.mean())).sum()
denominator = ((x - x.mean())**2).sum()
return (numerator / denominator) * x.mean() - y.mean()
[/code]
в столбце date_utc+value, чтобы получить локальную линейную подгонку с помощью
[code]raw_data = (
pl.read_ipc("../data_vault_1min.feather")
.with_columns(
[
pl.col("A1").rolling_map(ols_slope, window_size=60, min_periods=3).alias("A1_hourly_lin_pred"),
pl.col("A1").rolling_map(ols_slope, window_size=60, min_periods=3).alias("A1_hourly_lin_pred")
]
)
)
[/code]
Насколько я вижу, под капотом выполняется функция group_by_dynamic(), от которой я ожидаю достаточно высокой производительности.
Тем не менее, эта единственная операция всегда полностью перегружает мою память и приводит к сбою ядра.
Она хорошо работает на небольшом подмножестве данных 

Подробнее здесь: [url]https://stackoverflow.com/questions/78271540/linear-fit-within-rolling-map-slow-for-python-polars[/url]