Как мне использовать Dask .compute() для выполнения относительно простых операций?Python

Программы на Python
Ответить
Anonymous
 Как мне использовать Dask .compute() для выполнения относительно простых операций?

Сообщение Anonymous »

Я пытаюсь использовать Dask для выполнения некоторых относительно простых вычислений и операций, которые я делал с Pandas, но с большим набором данных. У меня есть около 1500 файлов .csv размером от 1 КБ до 26 МБ. Общий объем данных около 4 ГБ.
Пример:

Код: Выделить всё

import dask.dataframe as dd
ddf = dd.read_csv(loc+'*.csv',skiprows=5)
ddf['datetime'] = dd.to_datetime((ddf['date']+' '+ddf['time']),format='%d:%m:%Y %H:%M:%S')
Это дает мне фрейм данных Dask, в котором количество разделов равно количеству файлов.
Если я это сделаю;

Код: Выделить всё

ddf.compute()
Я получаю ошибку KeyError: «дата», но;

Код: Выделить всё

ddf.get_partition(0).compute()
похоже, работает нормально. Как мне следует использовать вычисления для подобных операций? Я открыт для ответа на вопрос, что Dask не подходит для этого набора данных и что вместо этого мне следует просто делать все это в pandas.

Подробнее здесь: https://stackoverflow.com/questions/798 ... operations
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»