Недостаток памяти Polars при выполнении серии соединений с совпадением 1:1 и большим количеством столбцов.

Недостаток памяти Polars при выполнении серии соединений с совпадением 1:1 и большим количеством столбцов. ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Недостаток памяти Polars при выполнении серии соединений с совпадением 1:1 и большим количеством столбцов.

Цитата

Сообщение Anonymous » 15 дек 2025, 15:19

Я выполняю серию левых соединений на Polars LazyFrames:

Код: Выделить всё

final_df = (
lf1.join(lf2, on="id", how="left")
.join(lf3, on="id", how="left")
.join(lf4, on="id", how="left")
)

Объединения почти 1 к 1. Каждый набор данных довольно большой: около 50 миллионов строк и примерно 20 столбцов.

И для информации есть столбец, который я удалил, который может ограничить соединение (если идентификатор совпадает, то «зона» с низкой мощностью столбца равна)
Даже при использовании потокового режима хеш-таблицы, созданные во время соединений, потребляют много памяти. Я пробовал разные вещи (выравнивание/объединение, объединение + группировка, сортировка перед объединением, разделение по зоне, объединение по идентификатору и зоне, объединение столбцов - это структура...). Тем не менее, я не нашел хорошего способа выполнять эти соединения более эффективно с точки зрения использования памяти без значительного снижения производительности (например, записывая промежуточные результаты в Parquet после каждого соединения).
Есть ли у кого-нибудь предложения или рекомендации по выполнению больших левых соединений более эффективным с точки зрения использования памяти способом?

Подробнее здесь: https://stackoverflow.com/questions/798 ... and-high-n

1765801176

Anonymous

Я выполняю серию левых соединений на Polars LazyFrames:
[code]final_df = (
lf1.join(lf2, on="id", how="left")
.join(lf3, on="id", how="left")
.join(lf4, on="id", how="left")
)
[/code]
Объединения почти 1 к 1. Каждый набор данных довольно большой: около 50 миллионов строк и примерно 20 столбцов.

И для информации есть столбец, который я удалил, который может ограничить соединение (если идентификатор совпадает, то «зона» с низкой мощностью столбца равна)
Даже при использовании потокового режима хеш-таблицы, созданные во время соединений, потребляют много памяти. Я пробовал разные вещи (выравнивание/объединение, объединение + группировка, сортировка перед объединением, разделение по зоне, объединение по идентификатору и зоне, объединение столбцов - это структура...). Тем не менее, я не нашел хорошего способа выполнять эти соединения более эффективно с точки зрения использования памяти без значительного снижения производительности (например, записывая промежуточные результаты в Parquet после каждого соединения).
Есть ли у кого-нибудь предложения или рекомендации по выполнению больших левых соединений более эффективным с точки зрения использования памяти способом? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79847220/polars-out-of-memory-when-performing-a-series-of-joins-with-11-match-and-high-n[/url]