Есть ли способ, кроме разделения Dask, избежать чрезмерного использования оперативной памяти из-за большого набора данны

Есть ли способ, кроме разделения Dask, избежать чрезмерного использования оперативной памяти из-за большого набора данны ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Есть ли способ, кроме разделения Dask, избежать чрезмерного использования оперативной памяти из-за большого набора данны

Цитата

Сообщение Anonymous » 23 ноя 2024, 15:51

Я использую следующий код для расчета некоторых переменных, связанных со скоростью, для набора данных, состоящего примерно из 200 миллионов строк. Чтобы избежать проблем с памятью, я использую фрагментирование.
import pandas as pd
import numpy as np
import math
from scipy.stats import skew, kurtosis
from tqdm import tqdm
import gc # For garbage collection

# Read the joined DataFrame
joined_df = pd.read_parquet('joined_data.parquet')

# Fill NaN values in 'final_direction' with a placeholder
joined_df['final_direction'].fillna('Unknown', inplace=True)

# Define the road types and their corresponding whisker values
road_whiskers = {
'motorway': {'lower_whisker': 32.0, 'upper_whisker': 162.0},
'motorway_link': {'lower_whisker': 32.0, 'upper_whisker': 162.0},
'trunk': {'lower_whisker': 1.0, 'upper_whisker': 169.0},
'trunk_link': {'lower_whisker': 1.0, 'upper_whisker': 169.0},
'primary': {'lower_whisker': 0.0, 'upper_whisker': 113.0},
'primary_link': {'lower_whisker': 0.0, 'upper_whisker': 113.0},
'secondary': {'lower_whisker': 0.0, 'upper_whisker': 83.0},
'secondary_link': {'lower_whisker': 0.0, 'upper_whisker': 83.0},
'tertiary': {'lower_whisker': 0.0, 'upper_whisker': 74.0},
'tertiary_link': {'lower_whisker': 0.0, 'upper_whisker': 74.0},
'residential': {'lower_whisker': 0.0, 'upper_whisker': 55.0},
'living_street': {'lower_whisker': 0.0, 'upper_whisker': 36.0},
'unclassified': {'lower_whisker': 0.0, 'upper_whisker': 96.0}
}

# Custom aggregation function with dynamic threshold based on road type
def custom_agg(series, func, fclass=None, require_min_size=1, **kwargs):
lower_threshold = road_whiskers[fclass]['lower_whisker']
upper_threshold = road_whiskers[fclass]['upper_whisker']
valid_series = series[(series >= lower_threshold) & (series = road_whiskers[x['fclass'].iloc[0]]['lower_whisker']) & (x['Speed'] = lower_threshold) & (series = road_whiskers[fclass]['lower_whisker']) &
(group['Speed']

Подробнее здесь: https://stackoverflow.com/questions/792 ... e-due-to-l

1732366308

Anonymous

Я использую следующий код для расчета некоторых переменных, связанных со скоростью, для набора данных, состоящего примерно из 200 миллионов строк.  Чтобы избежать проблем с памятью, я использую фрагментирование.
import pandas as pd
import numpy as np
import math
from scipy.stats import skew, kurtosis
from tqdm import tqdm
import gc  # For garbage collection

# Read the joined DataFrame
joined_df = pd.read_parquet('joined_data.parquet')

# Fill NaN values in 'final_direction' with a placeholder
joined_df['final_direction'].fillna('Unknown', inplace=True)

# Define the road types and their corresponding whisker values
road_whiskers = {
'motorway': {'lower_whisker': 32.0, 'upper_whisker': 162.0},
'motorway_link': {'lower_whisker': 32.0, 'upper_whisker': 162.0},
'trunk': {'lower_whisker': 1.0, 'upper_whisker': 169.0},
'trunk_link': {'lower_whisker': 1.0, 'upper_whisker': 169.0},
'primary': {'lower_whisker': 0.0, 'upper_whisker': 113.0},
'primary_link': {'lower_whisker': 0.0, 'upper_whisker': 113.0},
'secondary': {'lower_whisker': 0.0, 'upper_whisker': 83.0},
'secondary_link': {'lower_whisker': 0.0, 'upper_whisker': 83.0},
'tertiary': {'lower_whisker': 0.0, 'upper_whisker': 74.0},
'tertiary_link': {'lower_whisker': 0.0, 'upper_whisker': 74.0},
'residential': {'lower_whisker': 0.0, 'upper_whisker': 55.0},
'living_street': {'lower_whisker': 0.0, 'upper_whisker': 36.0},
'unclassified': {'lower_whisker': 0.0, 'upper_whisker': 96.0}
}

# Custom aggregation function with dynamic threshold based on road type
def custom_agg(series, func, fclass=None, require_min_size=1, **kwargs):
lower_threshold = road_whiskers[fclass]['lower_whisker']
upper_threshold = road_whiskers[fclass]['upper_whisker']
valid_series = series[(series >= lower_threshold) & (series = road_whiskers[x['fclass'].iloc[0]]['lower_whisker']) & (x['Speed'] = lower_threshold) & (series = road_whiskers[fclass]['lower_whisker']) &
(group['Speed'] 

Подробнее здесь: [url]https://stackoverflow.com/questions/79217874/is-there-a-way-apart-from-chunking-of-dask-to-avoid-excessive-ram-usage-due-to-l[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Сохранение набора данных xarray размером больше памяти в zarr с использованием dask.delayed без увеличения объема памяти

Последнее сообщение Anonymous « 26 ноя 2024, 01:05
Добавлено в форуме Python

Anonymous » 26 ноя 2024, 01:05 » в форуме Python

Я пытаюсь использовать dask для обработки данных, превышающих объем памяти, в xarray. Конкретно, я пытаюсь:

Объединить несколько файлов NetCDF (в одной географической сетке, с теми же переменными) по времени
Перенесите их в другую сетку...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
26 ноя 2024, 01:05
Сохранение набора данных xarray размером больше памяти в zarr с использованием dask.delayed без увеличения объема памяти

Последнее сообщение Anonymous « 26 ноя 2024, 21:39
Добавлено в форуме Python

Anonymous » 26 ноя 2024, 21:39 » в форуме Python

Я пытаюсь использовать dask для обработки данных, превышающих объем памяти, в xarray. Конкретно, я пытаюсь:

Объединить несколько файлов NetCDF (в одной географической сетке, с теми же переменными) по времени
Перенесите их в другую сетку...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
26 ноя 2024, 21:39
Почему Dask медленнее, чем Pandas, вычисляет среднее значение большого набора данных и как я могу повысить производитель

Последнее сообщение Anonymous « 19 янв 2025, 23:07
Добавлено в форуме Python

Anonymous » 19 янв 2025, 23:07 » в форуме Python

Я изучаю Dask, чтобы сделать мои проекты Python более эффективными и масштабируемыми. Чтобы лучше понять его производительность, я написал скрипт, сравнивающий время вычислений Pandas и Dask при вычислении среднего значения столбца в большом наборе...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
19 янв 2025, 23:07
Dask Python ValueError: нераспознанный dask менеджера фрагментов — должен быть одним из: []

Последнее сообщение Anonymous « 19 апр 2024, 14:43
Добавлено в форуме Python

Anonymous » 19 апр 2024, 14:43 » в форуме Python

Я использую xarray для объединения нескольких файлов netcdf с помощью xarray.open_mfdataset. Однако при попытке запустить код я получаю следующую ошибку:
---------------------------------------------------------------------------
ValueError...

0 Ответы

33 Просмотры

Последнее сообщение Anonymous
19 апр 2024, 14:43
Dask – Как оптимизировать вычисление первой строки каждого раздела в кадре данных dask?

Последнее сообщение Anonymous « 21 июн 2024, 18:52
Добавлено в форуме Python

Anonymous » 21 июн 2024, 18:52 » в форуме Python

Моя общая цель — прочитать несколько CSV-файлов, выполнить некоторые вычисления, сохранить их как базу данных паркета, используя опцию раздела_on в функции to_parquet.
Я не могу переиндексировать и перераспределить перед сохранением из-за...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
21 июн 2024, 18:52

Вернуться в «Python»