Dask объединяет два больших фрейма данных, которые не помещаются в память

Dask объединяет два больших фрейма данных, которые не помещаются в память ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Dask объединяет два больших фрейма данных, которые не помещаются в память

Цитата

Сообщение Anonymous » 14 янв 2025, 20:38

Мне нужно объединить большие фреймы данных в dask, но ядро моего ноутбука Jupyter выходит из строя из-за нехватки памяти. У меня 64 ГБ ОЗУ, но исходные наборы данных настолько скудны (данные о медицинских требованиях), и это объединение приводит к более чем 100 миллионам строк. Я читал, что Dask будет хорошим инструментом для обработки данных, которые не помещаются в память, но не уверен, правильно ли я его использую. Я читаю все свои файлы CSV, а также использовал размер блоков, чтобы перераспределить их для Dask. Я также включил функцию сохранения промежуточных ступеней как паркета. Есть ли способ, например, сохранить промежуточные результаты во время последнего слияния на диск, чтобы освободить немного памяти во время этой процедуры. Или есть другие инструменты, которые лучше подойдут для решения этой проблемы?
import dask.dataframe as dd

def save_and_reload(df, file_name):
"""
Saves the Dask DataFrame to a Parquet file and reloads it.
"""
df = df.repartition(npartitions=10) # Adjust partitions for better performance
df.to_parquet(file_name, write_index=False)
return dd.read_parquet(file_name)

def main():
# Read 11 CSV with smaller partitions
df = dd.read_csv(
file_path,
sep='\t',
dtype=dtypes.get(table_name, None),
parse_dates=parse_dates.get(table_name, None),
assume_missing=True,
blocksize="16MB"
)

# Merge step-by-step with intermediate saving for 11 .csvs
df_merged = dd.merge(dataframes['insurance_information'], dataframes['insurants'], on='pid', how='left')
df_merged = save_and_reload(df_merged, 'intermediate_1.parquet')

# This goes on for 10 more .csvs

df_merged = dd.merge(df_merged, dataframes['outpatient_fees'], on='pid', how='left')
df_merged = save_and_reload(df_merged, 'intermediate_10.parquet')

# After this merge the kernel crashes
df_merged = dd.merge(df_merged, dataframes['inpatient_fees'], on='pid', how='left')
df_merged = save_and_reload(df_merged, 'final_result.parquet')

if __name__ == "__main__":
main()

Подробнее здесь: https://stackoverflow.com/questions/793 ... nto-memory

1736876325

Anonymous

Мне нужно объединить большие фреймы данных в dask, но ядро моего ноутбука Jupyter выходит из строя из-за нехватки памяти. У меня 64 ГБ ОЗУ, но исходные наборы данных настолько скудны (данные о медицинских требованиях), и это объединение приводит к более чем 100 миллионам строк. Я читал, что Dask будет хорошим инструментом для обработки данных, которые не помещаются в память, но не уверен, правильно ли я его использую. Я читаю все свои файлы CSV, а также использовал размер блоков, чтобы перераспределить их для Dask. Я также включил функцию сохранения промежуточных ступеней как паркета. Есть ли способ, например, сохранить промежуточные результаты во время последнего слияния на диск, чтобы освободить немного памяти во время этой процедуры. Или есть другие инструменты, которые лучше подойдут для решения этой проблемы?
import dask.dataframe as dd

def save_and_reload(df, file_name):
"""
Saves the Dask DataFrame to a Parquet file and reloads it.
"""
df = df.repartition(npartitions=10)  # Adjust partitions for better performance
df.to_parquet(file_name, write_index=False)
return dd.read_parquet(file_name)

def main():
# Read 11 CSV with smaller partitions
df = dd.read_csv(
file_path,
sep='\t',
dtype=dtypes.get(table_name, None),
parse_dates=parse_dates.get(table_name, None),
assume_missing=True,
blocksize="16MB"
)

# Merge step-by-step with intermediate saving for 11 .csvs
df_merged = dd.merge(dataframes['insurance_information'], dataframes['insurants'], on='pid', how='left')
df_merged = save_and_reload(df_merged, 'intermediate_1.parquet')

# This goes on for 10 more .csvs

df_merged = dd.merge(df_merged, dataframes['outpatient_fees'], on='pid', how='left')
df_merged = save_and_reload(df_merged, 'intermediate_10.parquet')

# After this merge the kernel crashes
df_merged = dd.merge(df_merged, dataframes['inpatient_fees'], on='pid', how='left')
df_merged = save_and_reload(df_merged, 'final_result.parquet')

if __name__ == "__main__":
main()
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79355880/dask-merge-two-big-dataframes-that-do-not-fit-into-memory[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Dask – Как оптимизировать вычисление первой строки каждого раздела в кадре данных dask?

Последнее сообщение Anonymous « 21 июн 2024, 18:52
Добавлено в форуме Python

Anonymous » 21 июн 2024, 18:52 » в форуме Python

Моя общая цель — прочитать несколько CSV-файлов, выполнить некоторые вычисления, сохранить их как базу данных паркета, используя опцию раздела_on в функции to_parquet.
Я не могу переиндексировать и перераспределить перед сохранением из-за...

0 Ответы

33 Просмотры

Последнее сообщение Anonymous
21 июн 2024, 18:52
Dask – Как оптимизировать вычисление первой строки каждого раздела в кадре данных dask?

Последнее сообщение Anonymous « 25 июн 2024, 16:38
Добавлено в форуме Python

Anonymous » 25 июн 2024, 16:38 » в форуме Python

Моя общая цель — прочитать несколько CSV-файлов, выполнить некоторые вычисления, сохранить их как базу данных паркета, используя опцию partition_on в функции to_parquet.
Я не могу переиндексировать и перераспределить перед сохранением из-за...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
25 июн 2024, 16:38
Для глубокого обучения: сохранять каждый образец отдельно или сохранять блоки? данные не помещаются в память

Последнее сообщение Anonymous « 02 авг 2024, 23:02
Добавлено в форуме Python

Anonymous » 02 авг 2024, 23:02 » в форуме Python

Я обучаю классификатора. Мои данные поступают из нескольких наборов данных, каждый набор данных содержит несколько субъектов, каждый субъект провел несколько испытаний. В настоящее время моя структура данных на диске выглядит следующим образом:...

0 Ответы

46 Просмотры

Последнее сообщение Anonymous
02 авг 2024, 23:02
Python объединяет или объединяет несколько dfs с пересекающимся индексом даты и времени

Последнее сообщение Anonymous « 18 окт 2024, 18:14
Добавлено в форуме Python

Anonymous » 18 окт 2024, 18:14 » в форуме Python

Используя Pandas, вы можете объединить несколько кадров данных со столбцом метки времени и общими столбцами (в данном случае) станцией, долготой, широтой и несколькими столбцами переменных в отдельных файлах, но не дублировать общие столбцы или не...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
18 окт 2024, 18:14
Python объединяет или объединяет несколько dfs с пересекающимся индексом даты и времени

Последнее сообщение Anonymous « 18 окт 2024, 20:04
Добавлено в форуме Python

Anonymous » 18 окт 2024, 20:04 » в форуме Python

Используя Pandas, вы можете объединить несколько кадров данных со столбцом метки времени и общими столбцами (в данном случае) станцией, долготой, широтой и несколькими столбцами переменных в отдельных файлах, но не дублировать общие столбцы или не...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
18 окт 2024, 20:04

Вернуться в «Python»