Каков наиболее эффективный способ многопроцессорной обработки очень большого кадра данных? - Цифровое Кемерово

Каков наиболее эффективный способ многопроцессорной обработки очень большого кадра данных? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Каков наиболее эффективный способ многопроцессорной обработки очень большого кадра данных?

Цитата

Сообщение Anonymous » 27 июл 2024, 17:39

У меня есть большой Dataframe, над которым мне нужно выполнить множество операций сопоставления, и в прошлом я всегда использовал для этого приведенный ниже метод. Однако Dataframe, который я сейчас пытаюсь выполнить в многопроцессорном режиме, представляет собой CSV-файл размером 2 ГБ, с которым на моем компьютере возникают проблемы с многопроцессорной обработкой, даже при наличии только одного раздела. Я предполагаю, что это связано с тем, что когда Dataframe разбивается на фрагменты для многопроцессорной обработки, объем необходимой памяти удваивается, и поэтому мой компьютер не может с этим справиться. Это мой текущий код:

Код: Выделить всё

def parallelize_dataframe(df, func, additional_param, num_partitions):
df_split = np.array_split(df, num_partitions)
results = []
with ProcessPoolExecutor(max_workers=num_partitions) as executor:
futures = {executor.submit(func, chunk, additional_param): chunk for chunk in df_split}
for future in tqdm(futures, total=len(futures), desc="Overall progress"):
results.append(future.result())
return pd.concat(results)

Любая помощь приветствуется.

Подробнее здесь: https://stackoverflow.com/questions/787 ... -dataframe

Реклама

1722091185

Anonymous

У меня есть большой Dataframe, над которым мне нужно выполнить множество операций сопоставления, и в прошлом я всегда использовал для этого приведенный ниже метод. Однако Dataframe, который я сейчас пытаюсь выполнить в многопроцессорном режиме, представляет собой CSV-файл размером 2 ГБ, с которым на моем компьютере возникают проблемы с многопроцессорной обработкой, даже при наличии только одного раздела. Я предполагаю, что это связано с тем, что когда Dataframe разбивается на фрагменты для многопроцессорной обработки, объем необходимой памяти удваивается, и поэтому мой компьютер не может с этим справиться. Это мой текущий код:
[code]def parallelize_dataframe(df, func, additional_param, num_partitions):
df_split = np.array_split(df, num_partitions)
results = []
with ProcessPoolExecutor(max_workers=num_partitions) as executor:
futures = {executor.submit(func, chunk, additional_param): chunk for chunk in df_split}
for future in tqdm(futures, total=len(futures), desc="Overall progress"):
results.append(future.result())
return pd.concat(results)
[/code]
Любая помощь приветствуется.
 

Подробнее здесь: [url]https://stackoverflow.com/questions/78798755/what-is-the-most-efficient-way-to-multiprocess-over-a-very-large-dataframe[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Каков наиболее эффективный способ чтения большого двоичного файла Python?

Последнее сообщение Anonymous « 30 июл 2024, 05:17
Добавлено в форуме Python

Anonymous » 30 июл 2024, 05:17 » в форуме Python

У меня есть большой (21 ГБ) файл, который я хочу прочитать в памяти, а затем передать подпрограмме, которая прозрачно для меня обрабатывает данные. Я использую Python 2.6.6 на Centos 6.5, поэтому обновление операционной системы или Python не...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
30 июл 2024, 05:17
Удаление большого количества идентификаторов из большого кадра данных занимает много времени.

Последнее сообщение Anonymous « 11 ноя 2024, 16:50
Добавлено в форуме Python

Anonymous » 11 ноя 2024, 16:50 » в форуме Python

У меня есть два кадра данных df1 и df2
print(df1.shape)
(1042009, 40)

print(df1.columns)
Index( ,
dtype='object')

print(df2.shape)
(734738, 37)

print(df2.columns)
Index( ,
dtype='object')

Я хотел бы удалить уникальный идентификатор транзакции...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
11 ноя 2024, 16:50
Удаление большого количества идентификаторов из большого кадра данных занимает много времени.

Последнее сообщение Anonymous « 11 ноя 2024, 17:24
Добавлено в форуме Python

Anonymous » 11 ноя 2024, 17:24 » в форуме Python

У меня есть два кадра данных df1 и df2
print(df1.shape)
(1042009, 40)

print(df1.columns)
Index( ,
dtype='object')

print(df2.shape)
(734738, 37)

print(df2.columns)
Index( ,
dtype='object')

Я хотел бы удалить уникальный идентификатор транзакции...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
11 ноя 2024, 17:24
Удаление большого количества идентификаторов из большого кадра данных занимает много времени.

Последнее сообщение Anonymous « 11 ноя 2024, 18:45
Добавлено в форуме Python

Anonymous » 11 ноя 2024, 18:45 » в форуме Python

У меня есть два кадра данных df1 и df2
print(df1.shape)
(1042009, 40)

print(df1.columns)
Index( ,
dtype='object')

print(df2.shape)
(734738, 37)

print(df2.columns)
Index( ,
dtype='object')

Я хотел бы удалить уникальный идентификатор транзакции...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
11 ноя 2024, 18:45
Удаление большого количества идентификаторов из большого кадра данных занимает много времени.

Последнее сообщение Anonymous « 12 ноя 2024, 02:09
Добавлено в форуме Python

Anonymous » 12 ноя 2024, 02:09 » в форуме Python

У меня есть два кадра данных df1 и df2
print(df1.shape)
(1042009, 40)

print(df1.columns)
Index( ,
dtype='object')

print(df2.shape)
(734738, 37)

print(df2.columns)
Index( ,
dtype='object')

Я хотел бы удалить уникальный идентификатор транзакции...

0 Ответы

38 Просмотры

Последнее сообщение Anonymous
12 ноя 2024, 02:09

Вернуться в «Python»

Programmiererforum