Оптимизация использования памяти при обработке больших данных PythonPython

Программы на Python
Anonymous
 Оптимизация использования памяти при обработке больших данных Python

Сообщение Anonymous »

Я обрабатываю большой набор данных (~10 ГБ CSV) на Python с использованием pandas. Мой текущий подход загружает весь файл в память с помощью pd.read_csv(), но это вызывает проблемы с памятью на моей машине с оперативной памятью 16 ГБ. Я пробовал разбивать на фрагменты с помощью параметра chunksize, но производительность по-прежнему низкая, и я не знаю, как оптимизировать дальше. Каковы эффективные стратегии или библиотеки (например, Dask, Vaex) для обработки больших наборов данных в pandas при одновременном балансировании использования памяти и скорости обработки?

Подробнее здесь: https://stackoverflow.com/questions/798 ... processing

Вернуться в «Python»