Проблемы с памятью с потоковой передачей Polars при вычислении внешних продуктов в большом наборе данных »

Проблемы с памятью с потоковой передачей Polars при вычислении внешних продуктов в большом наборе данных » ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Проблемы с памятью с потоковой передачей Polars при вычислении внешних продуктов в большом наборе данных »

Цитата

Сообщение Anonymous » 13 фев 2025, 18:38

Я работаю с большим набором данных (~ 14 млн строк), используя поляры и столкнувшись с проблемами памяти, несмотря на использование потокового двигателя. Вот мой код: 
import polars as pl

# Read CSV in streaming mode
df = pl.scan_csv("dummy_file.csv")

# Rename columns to lowercase
df = df.rename({col:col.lower() for col in df.collect_schema().names()})

# Select specific columns and features
df = df.select(['x','y','z','t'] + features)

# Create sin and cos columns for each feature
df = df.with_columns([pl.col(col).sin().alias(f'{col}_sin') for col in features] +
[pl.col(col).cos().alias(f'{col}_cos') for col in features])

# Create list column from all feature columns (original + sin + cos)
df = df.with_columns(pl.concat_list(df.collect_schema().names()[4:]).alias("features"))

# Compute outer products for the features list
df = df.with_columns([
pl.concat_list(
[pl.col("features").list.get(i) * pl.col("features") for i in range(len(features)*3)]
).alias("outer_products")
])

# Write to parquet
df.sink_parquet('test.parquet')
< /code>
Мой набор данных: 
Первоначально имеет 42 столбца
фильтры до 40 столбцов
Создает SIN и COS столбцы для 36 функций , в результате чего дополнительные 72 столбца
вычисляют наружные продукты между всеми функциями 
среда: 
MacBook M1 с 16 ГБ оперативной памяти и 10 ядер
Polars 1.22
потоковой двигатель, включенный через переменную среды 
, несмотря на использование потоковых возможностей Polar > Вопросы: 
Как я могу оптимизировать этот код для более эффективной обработки большого набора данных?
Почему потоковая передача здесь не помогает? Операции кажутся независимыми от строки (внешний продукт каждой строки может быть вычислен независимо), но использование памяти растет до сбоя.
Есть ли альтернативные подходы к вычислению этих внешних продуктов, которые были бы более эффективными для памяти? br /> Дополнительный контекст: 
Вычисление внешнего продукта создает матрицу для каждой строки, которая затем сглаживается
. Окончательная операция должна создавать LEN (функции)* 3 * len (функции) * 3 элемента на строку (так как мы умножаем оригинальные функции + sin + cos версии) 
Я пробовал: 
Использование режима потоковой передачи
witch непосредственно в Parquet с использованием sink_parquet
Удаление промежуточных шагов для уменьшения использования памяти 
Любое понимание того, чтобы сделать это более эффективным для памяти при сохранении поляров ' Пособия по производительности будут очень оценены.

Подробнее здесь: https://stackoverflow.com/questions/794 ... arge-datas

1739461129

Anonymous

 Я работаю с большим набором данных (~ 14 млн строк), используя поляры и столкнувшись с проблемами памяти, несмотря на использование потокового двигателя. Вот мой код: < /p>
import polars as pl

# Read CSV in streaming mode
df = pl.scan_csv("dummy_file.csv")

# Rename columns to lowercase
df = df.rename({col:col.lower() for col in df.collect_schema().names()})

# Select specific columns and features
df = df.select(['x','y','z','t'] + features)

# Create sin and cos columns for each feature
df = df.with_columns([pl.col(col).sin().alias(f'{col}_sin') for col in features] +
[pl.col(col).cos().alias(f'{col}_cos') for col in features])

# Create list column from all feature columns (original + sin + cos)
df = df.with_columns(pl.concat_list(df.collect_schema().names()[4:]).alias("features"))

# Compute outer products for the features list
df = df.with_columns([
pl.concat_list(
[pl.col("features").list.get(i) * pl.col("features") for i in range(len(features)*3)]
).alias("outer_products")
])

# Write to parquet
df.sink_parquet('test.parquet')
< /code>
Мой набор данных: < /p>
Первоначально имеет 42 столбца
фильтры до 40 столбцов
Создает SIN и COS столбцы для 36 функций , в результате чего дополнительные 72 столбца
вычисляют наружные продукты между всеми функциями < /p>
среда: < /p>
MacBook M1 с 16 ГБ оперативной памяти и 10 ядер
Polars 1.22
потоковой двигатель, включенный через переменную среды < /p>
, несмотря на использование потоковых возможностей Polar > Вопросы: < /p>
Как я могу оптимизировать этот код для более эффективной обработки большого набора данных?
Почему потоковая передача здесь не помогает? Операции кажутся независимыми от строки (внешний продукт каждой строки может быть вычислен независимо), но использование памяти растет до сбоя.
Есть ли альтернативные подходы к вычислению этих внешних продуктов, которые были бы более эффективными для памяти? < /P> < /p> < /p> < /p> < /p> < /p> < /p> br />  Дополнительный контекст: < /p>
Вычисление внешнего продукта создает матрицу для каждой строки, которая затем сглаживается
. Окончательная операция должна создавать LEN (функции)* 3 * len (функции) * 3 элемента на строку (так как мы умножаем оригинальные функции + sin + cos версии) < /p>
Я пробовал: < /p>
Использование режима потоковой передачи
witch непосредственно в Parquet с использованием sink_parquet
Удаление промежуточных шагов для уменьшения использования памяти < /p>
Любое понимание того, чтобы сделать это более эффективным для памяти при сохранении поляров ' Пособия по производительности будут очень оценены.  

Подробнее здесь: [url]https://stackoverflow.com/questions/79436127/memory-issues-with-polars-streaming-when-computing-outer-products-on-large-datas[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Проблемы с памятью с потоковой передачей Polars при вычислении внешних продуктов в большом наборе данных »

Последнее сообщение Anonymous « 13 фев 2025, 15:16
Добавлено в форуме Python

Anonymous » 13 фев 2025, 15:16 » в форуме Python

Я работаю с большим набором данных (~ 14 млн строк), используя поляры и столкнувшись с проблемами памяти, несмотря на использование потокового двигателя. Вот мой код:
import polars as pl

# Read CSV in streaming mode
df = pl.scan_csv(...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
13 фев 2025, 15:16
Проблемы с памятью с потоковой передачей Polars при вычислении внешних продуктов в большом наборе данных »

Последнее сообщение Anonymous « 13 фев 2025, 17:12
Добавлено в форуме Python

Anonymous » 13 фев 2025, 17:12 » в форуме Python

Я работаю с большим набором данных (~ 14 млн строк), используя поляры и столкнувшись с проблемами памяти, несмотря на использование потокового двигателя. Вот мой код:
import polars as pl

# Read CSV in streaming mode
df = pl.scan_csv(...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
13 фев 2025, 17:12
Polars вызывает сбой ядра Python при большом наборе данных

Последнее сообщение Anonymous « 11 окт 2024, 11:18
Добавлено в форуме Python

Anonymous » 11 окт 2024, 11:18 » в форуме Python

У меня есть большой полярный фрейм данных, который представляет собой перекрестное произведение двух фреймов данных. Я пытаюсь использовать библиотеку медуз, чтобы получить оценку сходства по двум столбцам, например:
vec_jw_similarity =...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
11 окт 2024, 11:18
Является ли Java «передачей по ссылке» или «передачей по значению»?

Последнее сообщение Anonymous « 05 дек 2024, 22:12
Добавлено в форуме JAVA

Anonymous » 05 дек 2024, 22:12 » в форуме JAVA

Я всегда думал, что Java использует передачу по ссылке . Однако я прочитал сообщение в блоге, в котором утверждается, что Java использует передачу по значению . Мне кажется, я не понимаю различия, которые проводит автор.
Каково объяснение?...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
05 дек 2024, 22:12
Проблема с памятью при вычислении процентилей в C++ [закрыто]

Последнее сообщение Anonymous « 29 апр 2024, 02:27
Добавлено в форуме C++

Anonymous » 29 апр 2024, 02:27 » в форуме C++

Я пытаюсь запустить следующий код для расчета процентилей из произвольного вектора, интерполирующего между значениями для неявных процентилей:
#include
#include
#include

using namespace std;

vector sort(vector& v) {
vector copy = v;...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
29 апр 2024, 02:27

Вернуться в «Python»