Как эффективно обрабатывать большие наборы данных в Python, используя Pandas или альтернативы?Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как эффективно обрабатывать большие наборы данных в Python, используя Pandas или альтернативы?

Сообщение Anonymous »

Я работаю над проектом, который включает обработку очень большого набора данных (около 10 ГБ) с использованием Python. Мне нужно выполнить общие преобразования данных, такие как фильтрация строк, создание новых вычисляемых столбцов и агрегирование данных. Однако мой текущий подход к Pandas сталкивается с ограничениями памяти, поскольку набор данных слишком велик, чтобы поместиться в памяти.
Я ищу более эффективный с точки зрения использования памяти способ обработки таких больших наборов данных, сохраняя при этом производительность. Я рассматривал такие библиотеки, как Dask, но не знаю, как адаптировать к ним мой рабочий процесс Pandas. Буду признателен за рекомендации по оптимизации моего кода или переключению на более эффективный инструмент для этой задачи.
Я ожидал, что эти подходы позволят мне обрабатывать набор данных, не превышая ограничений памяти, сохраняя при этом производительность. для преобразований и агрегаций.

Подробнее здесь: https://stackoverflow.com/questions/792 ... ternatives
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»