Я обрабатываю большой набор данных (~10 ГБ CSV) на Python с использованием pandas. Мой текущий подход загружает весь файл в память с помощью pd.read_csv(), но это вызывает проблемы с памятью на моей машине с оперативной памятью 16 ГБ. Я пробовал разбивать на фрагменты с помощью параметра chunksize, но производительность по-прежнему низкая, и я не знаю, как оптимизировать дальше. Каковы эффективные стратегии или библиотеки (например, Dask, Vaex) для обработки больших наборов данных в pandas при одновременном балансировании использования памяти и скорости обработки?
Подробнее здесь: https://stackoverflow.com/questions/798 ... processing