Как мне использовать Dask .compute() для выполнения относительно простых операций? - Цифровое Кемерово

Как мне использовать Dask .compute() для выполнения относительно простых операций? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как мне использовать Dask .compute() для выполнения относительно простых операций?

Цитата

Сообщение Anonymous » 08 янв 2026, 21:13

Я пытаюсь использовать Dask для выполнения некоторых относительно простых вычислений и операций, которые я делал с Pandas, но с большим набором данных. У меня есть около 1500 файлов .csv размером от 1 КБ до 26 МБ. Общий объем данных около 4 ГБ.
Пример:

Код: Выделить всё

import dask.dataframe as dd
ddf = dd.read_csv(loc+'*.csv',skiprows=5)
ddf['datetime'] = dd.to_datetime((dddf['date']+' '+dddf['time']),format='%d:%m:%Y %H:%M:%S')

Это дает мне фрейм данных Dask, в котором количество разделов равно количеству файлов.
Если я это сделаю;

Код: Выделить всё

ddf.compute()

Я получаю ошибку KeyError: «дата», но;

Код: Выделить всё

ddf.get_partition(0).compute()

похоже, работает нормально. Как мне следует использовать вычисления для подобных операций? Я открыт для ответа на вопрос, что Dask не подходит для этого набора данных. Вместо этого мне следует просто делать все это в pandas.

Подробнее здесь: https://stackoverflow.com/questions/798 ... operations

1767896011

Anonymous

Я пытаюсь использовать Dask для выполнения некоторых относительно простых вычислений и операций, которые я делал с Pandas, но с большим набором данных. У меня есть около 1500 файлов .csv размером от 1 КБ до 26 МБ. Общий объем данных около 4 ГБ.
Пример:
[code]import dask.dataframe as dd
ddf = dd.read_csv(loc+'*.csv',skiprows=5)
ddf['datetime'] = dd.to_datetime((dddf['date']+' '+dddf['time']),format='%d:%m:%Y %H:%M:%S')
[/code]
Это дает мне фрейм данных Dask, в котором количество разделов равно количеству файлов.
Если я это сделаю;
[code]ddf.compute()
[/code]
Я получаю ошибку KeyError: «дата», но;
[code]ddf.get_partition(0).compute()
[/code]
похоже, работает нормально. Как мне следует использовать вычисления для подобных операций? Я открыт для ответа на вопрос, что Dask не подходит для этого набора данных. Вместо этого мне следует просто делать все это в pandas. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79863627/how-should-i-be-using-dask-compute-to-perform-relatively-simple-operations[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»