У меня есть большой Dataframe, над которым мне нужно выполнить множество операций сопоставления, и в прошлом я всегда использовал для этого приведенный ниже метод. Однако Dataframe, который я сейчас пытаюсь выполнить в многопроцессорном режиме, представляет собой CSV-файл размером 2 ГБ, с которым на моем компьютере возникают проблемы с многопроцессорной обработкой, даже при наличии только одного раздела. Я предполагаю, что это связано с тем, что когда Dataframe разбивается на фрагменты для многопроцессорной обработки, объем необходимой памяти удваивается, и поэтому мой компьютер не может с этим справиться. Это мой текущий код:
Код: Выделить всё
def parallelize_dataframe(df, func, additional_param, num_partitions):
df_split = np.array_split(df, num_partitions)
results = []
with ProcessPoolExecutor(max_workers=num_partitions) as executor:
futures = {executor.submit(func, chunk, additional_param): chunk for chunk in df_split}
for future in tqdm(futures, total=len(futures), desc="Overall progress"):
results.append(future.result())
return pd.concat(results)
Любая помощь приветствуется.
Подробнее здесь:
https://stackoverflow.com/questions/787 ... -dataframe