Как эффективно обновлять (обновлять+вставлять) большие наборы данных с помощью Polars

Как эффективно обновлять (обновлять+вставлять) большие наборы данных с помощью Polars ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как эффективно обновлять (обновлять+вставлять) большие наборы данных с помощью Polars

Цитата

Сообщение Anonymous » 18 янв 2025, 12:42

Я работаю с большими наборами данных, хранящимися в файлах Parquet, и мне нужно выполнить операцию обновления (обновления + вставки) с помощью Polars. Если файлы вырастут до пары ГБ, возникнут проблемы с памятью, и операция обновления завершится неудачно. Моя система имеет 16 ГБ ОЗУ.
Вот упрощенный пример, в котором я создаю большой набор данных и меньший набор данных для обновления:

Код: Выделить всё

import polars as pl

def generate_data(groups, nids, ncols, f=1.0):
symbols = pl.LazyFrame({'group': groups})
ids = pl.LazyFrame({'id': pl.arange(nids, dtype=pl.Int64, eager=True)})
cols_expr = [pl.lit(i*f, dtype=pl.Float64).alias(f'val_{i}') for i in range(1, ncols+1)]
return symbols.join(ids, how='cross').with_columns(cols_expr).collect()

# Generate large dataset
df_old = generate_data(groups=list('ABCDEFGHIJKLMNOPQRSTUVWXYZ'), nids=10**7, ncols=4)
print(f'df_old: {round(df_old.estimated_size()/10**9, 3)} GB')
# df_old: 10.66 GB

# Generate relatively small dataset update
df_new = generate_data(groups=['A', 'D', 'XYZ'], nids=10**4, ncols=4, f=10.)
print(f'df_new: {round(df_new.estimated_size()/10**9, 3)} GB')
# df_new: 0.001 GB

# Update fails probably due to memory issues
df = df_old.update(df_new, on=['group', 'id'], how='full').sort(['group', 'id'])
print(df)
# The kernel died, restarting...

# Polars version 1.17.1

Приведенный выше код работает с меньшими наборами данных, но когда размер данных увеличивается (например, df_old составляет 10 ГБ), происходит сбой ядра.
Каков наиболее эффективный способ выполнения обновления больших наборов данных с помощью Polars?
Существуют ли стратегии, позволяющие избежать проблем с памятью при обновлении больших наборов данных?

Подробнее здесь: https://stackoverflow.com/questions/793 ... ith-polars

1737193338

Anonymous

Я работаю с большими наборами данных, хранящимися в файлах Parquet, и мне нужно выполнить операцию обновления (обновления + вставки) с помощью Polars. Если файлы вырастут до пары ГБ, возникнут проблемы с памятью, и операция обновления завершится неудачно. Моя система имеет 16 ГБ ОЗУ.
Вот упрощенный пример, в котором я создаю большой набор данных и меньший набор данных для обновления:
[code]import polars as pl

def generate_data(groups, nids, ncols, f=1.0):
symbols = pl.LazyFrame({'group': groups})
ids = pl.LazyFrame({'id': pl.arange(nids, dtype=pl.Int64, eager=True)})
cols_expr = [pl.lit(i*f, dtype=pl.Float64).alias(f'val_{i}') for i in range(1, ncols+1)]
return symbols.join(ids, how='cross').with_columns(cols_expr).collect()

# Generate large dataset
df_old = generate_data(groups=list('ABCDEFGHIJKLMNOPQRSTUVWXYZ'), nids=10**7, ncols=4)
print(f'df_old: {round(df_old.estimated_size()/10**9, 3)} GB')
# df_old: 10.66 GB

# Generate relatively small dataset update
df_new = generate_data(groups=['A', 'D', 'XYZ'], nids=10**4, ncols=4, f=10.)
print(f'df_new: {round(df_new.estimated_size()/10**9, 3)} GB')
# df_new: 0.001 GB

# Update fails probably due to memory issues
df = df_old.update(df_new, on=['group', 'id'], how='full').sort(['group', 'id'])
print(df)
# The kernel died, restarting...

# Polars version 1.17.1
[/code]
Приведенный выше код работает с меньшими наборами данных, но когда размер данных увеличивается (например, df_old составляет 10 ГБ), происходит сбой ядра.
Каков наиболее эффективный способ выполнения обновления больших наборов данных с помощью Polars?
Существуют ли стратегии, позволяющие избежать проблем с памятью при обновлении больших наборов данных? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79366388/how-to-efficiently-upsert-updateinsert-large-datasets-with-polars[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как эффективно обновлять (обновлять+вставлять) большие наборы данных с помощью Polars

Последнее сообщение Anonymous « 18 янв 2025, 03:25
Добавлено в форуме Python

Anonymous » 18 янв 2025, 03:25 » в форуме Python

Я работаю с большими наборами данных, хранящимися в файлах Parquet, и мне нужно выполнить операцию обновления (обновления + вставки) с помощью Polars. Если файлы вырастут до пары ГБ, возникнут проблемы с памятью, и операция обновления завершится...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
18 янв 2025, 03:25
Sqlite – Как эффективно вставлять или обновлять миллионы строк?

Последнее сообщение Anonymous « 29 фев 2024, 16:55
Добавлено в форуме Python

Anonymous » 29 фев 2024, 16:55 » в форуме Python

У меня есть тысячи текстовых файлов, состоящих из товара и кода поставщика, которые имеют следующий формат:

имя_элемента,код_поставщика Например:

Картофель, 10294 Веревка, 49013 Фасоль,23958 Мыло,12495 Я хочу добавить их в одну таблицу в sqlite...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
29 фев 2024, 16:55
Как наборы и наборы сравнений работают в Python?

Последнее сообщение Anonymous « 29 июл 2025, 00:21
Добавлено в форуме Python

Anonymous » 29 июл 2025, 00:21 » в форуме Python

Я изучаю Python, исходящий из некоторого опыта на уровне начинающих с Java. Все это имеет смысл по большей части, но одно из упражнений заставило меня задуматься, что на самом деле происходит в Python.
import string

def ispangram(str1,...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
29 июл 2025, 00:21
Как наборы и наборы сравнений работают в Python? [дублировать]

Последнее сообщение Anonymous « 29 июл 2025, 01:34
Добавлено в форуме Python

Anonymous » 29 июл 2025, 01:34 » в форуме Python

Я изучаю Python, исходящий из некоторого опыта на уровне начинающих с Java. Все это имеет смысл по большей части, но одно из упражнений заставило меня задуматься, что на самом деле происходит в Python.
import string

def ispangram(str1,...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
29 июл 2025, 01:34
Как я могу эффективно обрабатывать большие наборы данных в Python для анализа данных

Последнее сообщение Гость « 09 мар 2024, 16:41
Добавлено в форуме Python

Гость » 09 мар 2024, 16:41 » в форуме Python

I am working on a project that involves analyzing large datasets in Python. However, I'm encountering performance issues and memory limitations when dealing with these large datasets. What are some efficient approaches or best practices for handling...

0 Ответы

31 Просмотры

Последнее сообщение Гость
09 мар 2024, 16:41

Вернуться в «Python»