Почему Dask медленнее, чем Pandas, вычисляет среднее значение большого набора данных и как я могу повысить производитель

Почему Dask медленнее, чем Pandas, вычисляет среднее значение большого набора данных и как я могу повысить производитель ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Почему Dask медленнее, чем Pandas, вычисляет среднее значение большого набора данных и как я могу повысить производитель

Цитата

Сообщение Anonymous » 19 янв 2025, 23:07

Я изучаю Dask, чтобы сделать мои проекты Python более эффективными и масштабируемыми. Чтобы лучше понять его производительность, я написал скрипт, сравнивающий время вычислений Pandas и Dask при вычислении среднего значения столбца в большом наборе данных. Вот мой код:

Код: Выделить всё

import pandas as pd
import dask.dataframe as dd
import time
from memory_profiler import memory_usage

filename = "large_dataset_3.csv"

df_pd = pd.read_csv(filename)
df_dask = dd.read_csv(filename, blocksize=75e6)

start = time.time()
mean_pd = df_pd["points"].mean()
stop = time.time()
print(f"Pandas Mean Computation Time {stop - start:.5f} seconds")

start = time.time()
mean_dask = df_dask["points"].mean().compute(num_workers=4)
stop = time.time()
print(f"Dask Mean Computation Time {stop - start:.5f} seconds")

Когда я запускаю этот скрипт, я обнаруживаю, что Pandas вычисляет среднее значение примерно за 0,02 секунды, а Dask — более 4,5 секунды. Этот результат удивителен, поскольку я ожидал, что Dask будет работать быстрее благодаря возможностям параллельной обработки.
Для контекста:
Набор данных (large_dataset_3.csv). содержит 100 миллионов строк общим размером 292,4 МБ.
Мои системные характеристики:
Процессор: Intel ® Ядро™ i5-8365U × 8 (4 ядра, 8 потоков)
ОЗУ: 16 ГБ
Мои вопросы:
Почему Dask в этом сценарии работает медленнее, чем Pandas?
Есть ли какие-либо оптимизации или конфигурации, которые я могу применить, чтобы повысить производительность Dask?

Подробнее здесь: https://stackoverflow.com/questions/793 ... et-and-how

1737317274

Anonymous

Я изучаю Dask, чтобы сделать мои проекты Python более эффективными и масштабируемыми. Чтобы лучше понять его производительность, я написал скрипт, сравнивающий время вычислений Pandas и Dask при вычислении среднего значения столбца в большом наборе данных. Вот мой код:
[code]import pandas as pd
import dask.dataframe as dd
import time
from memory_profiler import memory_usage

filename = "large_dataset_3.csv"

df_pd = pd.read_csv(filename)
df_dask = dd.read_csv(filename, blocksize=75e6)

start = time.time()
mean_pd = df_pd["points"].mean()
stop = time.time()
print(f"Pandas Mean Computation Time {stop - start:.5f} seconds")

start = time.time()
mean_dask = df_dask["points"].mean().compute(num_workers=4)
stop = time.time()
print(f"Dask Mean Computation Time {stop - start:.5f} seconds")
[/code]
Когда я запускаю этот скрипт, я обнаруживаю, что Pandas вычисляет среднее значение примерно за 0,02 секунды, а Dask — более 4,5 секунды. Этот результат удивителен, поскольку я ожидал, что Dask будет работать быстрее благодаря возможностям параллельной обработки.
Для контекста:
Набор данных (large_dataset_3.csv). содержит 100 миллионов строк общим размером 292,4 МБ.
Мои системные характеристики:
[b]Процессор[/b]: Intel ® Ядро™ i5-8365U × 8 (4 ядра, 8 потоков)
[b]ОЗУ[/b]: 16 ГБ
Мои вопросы:
Почему Dask в этом сценарии работает медленнее, чем Pandas?
Есть ли какие-либо оптимизации или конфигурации, которые я могу применить, чтобы повысить производительность Dask? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79369679/why-is-dask-slower-than-pandas-in-computing-the-mean-of-a-large-dataset-and-how[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Почему Axis = 0 в np.mean () вычисляет среднее значение по столбцам вместо рядов? [дублировать]

Последнее сообщение Anonymous « 07 мар 2025, 15:04
Добавлено в форуме Python

Anonymous » 07 мар 2025, 15:04 » в форуме Python

Почему Axis = 0 в np.mean () вычисляет среднее значение по столбцам вместо строк? import numpy as np

arr = np.array([ , ])

>>> arr
array([ ,
])
>>> arr.shape
(2, 3)

Since arr.shape IS 2 , представляющий количество строк, я ожидал, что np.mean...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
07 мар 2025, 15:04
Есть ли способ, кроме разделения Dask, избежать чрезмерного использования оперативной памяти из-за большого набора данны

Последнее сообщение Anonymous « 23 ноя 2024, 15:51
Добавлено в форуме Python

Anonymous » 23 ноя 2024, 15:51 » в форуме Python

Я использую следующий код для расчета некоторых переменных, связанных со скоростью, для набора данных, состоящего примерно из 200 миллионов строк. Чтобы избежать проблем с памятью, я использую фрагментирование.
import pandas as pd
import numpy as...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
23 ноя 2024, 15:51
Dask – Как оптимизировать вычисление первой строки каждого раздела в кадре данных dask?

Последнее сообщение Anonymous « 21 июн 2024, 18:52
Добавлено в форуме Python

Anonymous » 21 июн 2024, 18:52 » в форуме Python

Моя общая цель — прочитать несколько CSV-файлов, выполнить некоторые вычисления, сохранить их как базу данных паркета, используя опцию раздела_on в функции to_parquet.
Я не могу переиндексировать и перераспределить перед сохранением из-за...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
21 июн 2024, 18:52
Dask – Как оптимизировать вычисление первой строки каждого раздела в кадре данных dask?

Последнее сообщение Anonymous « 25 июн 2024, 16:38
Добавлено в форуме Python

Anonymous » 25 июн 2024, 16:38 » в форуме Python

Моя общая цель — прочитать несколько CSV-файлов, выполнить некоторые вычисления, сохранить их как базу данных паркета, используя опцию partition_on в функции to_parquet.
Я не могу переиндексировать и перераспределить перед сохранением из-за...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
25 июн 2024, 16:38
Dask Python ValueError: нераспознанный dask менеджера фрагментов — должен быть одним из: []

Последнее сообщение Anonymous « 19 апр 2024, 14:43
Добавлено в форуме Python

Anonymous » 19 апр 2024, 14:43 » в форуме Python

Я использую xarray для объединения нескольких файлов netcdf с помощью xarray.open_mfdataset. Однако при попытке запустить код я получаю следующую ошибку:
---------------------------------------------------------------------------
ValueError...

0 Ответы

33 Просмотры

Последнее сообщение Anonymous
19 апр 2024, 14:43

Вернуться в «Python»