Я пытаюсь использовать Dask для выполнения некоторых относительно простых вычислений и операций, которые я делал с Pandas, но с большим набором данных. У меня есть около 1500 файлов .csv размером от 1 КБ до 26 МБ. Общий объем данных около 4 ГБ.
Пример:
Код: Выделить всё
import dask.dataframe as dd
ddf = dd.read_csv(loc+'*.csv',skiprows=5)
ddf['datetime'] = dd.to_datetime((dddf['date']+' '+dddf['time']),format='%d:%m:%Y %H:%M:%S')
Это дает мне фрейм данных Dask, в котором количество разделов равно количеству файлов.
Если я это сделаю;
Я получаю ошибку KeyError: «дата», но;
похоже, работает нормально. Как мне следует использовать вычисления для подобных операций? Я открыт для ответа на вопрос, что Dask не подходит для этого набора данных. Вместо этого мне следует просто делать все это в pandas.
Подробнее здесь:
https://stackoverflow.com/questions/798 ... operations