Я работаю над проектом, который включает обработку очень большого набора данных (около 10 ГБ) с использованием Python. Мне нужно выполнить общие преобразования данных, такие как фильтрация строк, создание новых вычисляемых столбцов и агрегирование данных. Однако мой текущий подход к Pandas сталкивается с ограничениями памяти, поскольку набор данных слишком велик, чтобы поместиться в памяти.
Я ищу более эффективный с точки зрения использования памяти способ обработки таких больших наборов данных, сохраняя при этом производительность. Я рассматривал такие библиотеки, как Dask, но не знаю, как адаптировать к ним мой рабочий процесс Pandas. Буду признателен за рекомендации по оптимизации моего кода или переключению на более эффективный инструмент для этой задачи.
Я ожидал, что эти подходы позволят мне обрабатывать набор данных, не превышая ограничений памяти, сохраняя при этом производительность. для преобразований и агрегаций.
Подробнее здесь: https://stackoverflow.com/questions/792 ... ternatives
Как эффективно обрабатывать большие наборы данных в Python, используя Pandas или альтернативы? ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Как эффективно обрабатывать большие наборы данных в Python с помощью Pandas?
Anonymous » » в форуме Python - 0 Ответы
- 15 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Как эффективно обрабатывать большие наборы данных в Python с помощью Pandas?
Anonymous » » в форуме Python - 0 Ответы
- 14 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Как эффективно обрабатывать большие наборы данных в Python с помощью Pandas?
Anonymous » » в форуме Python - 0 Ответы
- 15 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Как эффективно обрабатывать большие наборы данных в Python с помощью Pandas?
Anonymous » » в форуме Python - 0 Ответы
- 15 Просмотры
-
Последнее сообщение Anonymous
-