Мне бы хотелось использовать многопроцессорность, чтобы ускорить работу программы. Мой входной файл содержит 30 миллионов строк. Я бы хотел запустить 10 процессов параллельно. Но мой файл очень большой (содержит 30 миллионов строк). Боюсь, что бегущая память взорвется. Кто-нибудь знает, что мне делать? Ниже приведен код, который выполняется в одном процессе. Заранее спасибо.
batch_size = 1000
header_written = False
output_file = "final_patent_sample.csv"
for i in tqdm(range(0, df2_csv.shape[0], batch_size)):
batch = df2_csv.iloc[i:i + batch_size].to_dict(orient='records')
results = match_and_merge(batch)
batch_df = pd.DataFrame(results, columns=matched_df.columns)
batch_df.to_csv(output_file, mode='a', index=False, header=not header_written)
header_written = True
Подробнее здесь: https://stackoverflow.com/questions/791 ... h-batching
Многопроцессорная обработка с пакетной обработкой ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение