Сохранение набора данных xarray размером больше памяти в zarr с использованием dask.delayed без увеличения объема памяти

Сохранение набора данных xarray размером больше памяти в zarr с использованием dask.delayed без увеличения объема памяти ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Сохранение набора данных xarray размером больше памяти в zarr с использованием dask.delayed без увеличения объема памяти

Цитата

Сообщение Anonymous » 26 ноя 2024, 21:39

Я пытаюсь использовать dask для обработки данных, превышающих объем памяти, в xarray. Конкретно, я пытаюсь:

Объединить несколько файлов NetCDF (в одной географической сетке, с теми же переменными) по времени
Перенесите их в другую сетку
Сохраните их как хранилище zarr, разбив на фрагменты так, чтобы во времени всегда оставался только один фрагмент.

(результирующее хранилище zarr будет затем использоваться для дальнейшего анализа, который выполняется во временном измерении, и поэтому его необходимо разбить на части по времени).
Однако у меня возникли проблемы с настройкой рабочего процесса, не вызывая использование памяти резко увеличивается при вызове ds.to_zarr().
Я пытаюсь следовать лучшим практикам Dask (особенно этому). Упрощенная версия рабочего процесса:
import xarray as xr
import numpy as np
import xesmf as xe
from distributed import Client

# Start dask client
client = Client()
display(client)

@dask.delayed
def load(fn_list):
ds = xr.open_mfdataset(fn_list)
return ds

@dask.delayed
def process(ds):
# Do something to dataset, e.g., regridding
ref_grid = xr.Dataset(coords = {'lat':np.arange(-89.5,89.6),
'lon':np.arange(-179.5,179.6)})
rgrd = xe.Regridder(ds,ref_grid,'conservative')

ds = rgrd(ds)
return ds

def workflow(fn_list):
ds = load(fn_list)

ds = process(ds)

# Rechunk
ds = ds.chunk({'time':-1,'lat':12,'lon':12})

delayed = dask.delayed(ds.to_zarr)('test.zarr')
return delayed

out = dask.compute(workflow)
dask.compute(out)

Из того, что я понял, исследуя эту проблему, что-то в способе настройки графа задач приводит к загрузке всего массива и отправке его одному рабочему процессу при вызове dask.compute. () переходит к вызову .to_zarr().
Думаю, мой основной вопрос: зачем нужен вызов .to_zarr() все в памяти / как это настроить так, чтобы оно нет?
Версии:
zarr == 2.18.3
xarray == 2024.9.0
dask == 2024.9.1

Подробнее здесь: https://stackoverflow.com/questions/792 ... -without-b

1732646389

Anonymous

Я пытаюсь использовать dask для обработки данных, превышающих объем памяти, в xarray. Конкретно, я пытаюсь:
[list]
[*]Объединить несколько файлов NetCDF (в одной географической сетке, с теми же переменными) по времени
[*]Перенесите их в другую сетку
[*]Сохраните их как хранилище zarr, разбив на фрагменты так, чтобы во времени всегда оставался только один фрагмент.
[/list]
(результирующее хранилище zarr будет затем использоваться для дальнейшего анализа, который выполняется во временном измерении, и поэтому его необходимо разбить на части по времени).
Однако у меня возникли проблемы с настройкой рабочего процесса, не вызывая использование памяти резко увеличивается при вызове ds.to_zarr().
Я пытаюсь следовать лучшим практикам Dask (особенно этому). Упрощенная версия рабочего процесса:
import xarray as xr
import numpy as np
import xesmf as xe
from distributed import Client

# Start dask client
client = Client()
display(client)

@dask.delayed
def load(fn_list):
ds = xr.open_mfdataset(fn_list)
return ds

@dask.delayed
def process(ds):
# Do something to dataset, e.g., regridding
ref_grid = xr.Dataset(coords = {'lat':np.arange(-89.5,89.6),
'lon':np.arange(-179.5,179.6)})
rgrd = xe.Regridder(ds,ref_grid,'conservative')

ds = rgrd(ds)
return ds

def workflow(fn_list):
ds = load(fn_list)

ds = process(ds)

# Rechunk
ds = ds.chunk({'time':-1,'lat':12,'lon':12})

delayed = dask.delayed(ds.to_zarr)('test.zarr')
return delayed

out = dask.compute(workflow)
dask.compute(out)


Из того, что я понял, исследуя эту проблему, что-то в способе настройки графа задач приводит к загрузке всего массива и отправке его одному рабочему процессу при вызове dask.compute. () переходит к вызову .to_zarr().
Думаю, мой основной вопрос: зачем нужен вызов .to_zarr() все в памяти / как это настроить так, чтобы оно нет?
Версии:
zarr == 2.18.3
xarray == 2024.9.0
dask == 2024.9.1
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79224724/storing-larger-than-memory-xarray-dataset-to-zarr-using-dask-delayed-without-b[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Сохранение набора данных xarray размером больше памяти в zarr с использованием dask.delayed без увеличения объема памяти

Последнее сообщение Anonymous « 26 ноя 2024, 01:05
Добавлено в форуме Python

Anonymous » 26 ноя 2024, 01:05 » в форуме Python

Я пытаюсь использовать dask для обработки данных, превышающих объем памяти, в xarray. Конкретно, я пытаюсь:

Объединить несколько файлов NetCDF (в одной географической сетке, с теми же переменными) по времени
Перенесите их в другую сетку...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
26 ноя 2024, 01:05
Как вложить функции dask.delayed в другие функции dask.delayed

Последнее сообщение Anonymous « 27 ноя 2024, 12:54
Добавлено в форуме Python

Anonymous » 27 ноя 2024, 12:54 » в форуме Python

Я пытаюсь изучить dask и создал следующий игрушечный пример конвейера с задержкой.
+-----+ +-----+ +-----+
| baz +--+ bar +--+ foo |
+-----+ +-----+ +-----+

Итак, baz зависит от bar, который, в свою очередь, зависит от foo
I хотелось бы, чтобы...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
27 ноя 2024, 12:54
Как вложить функции dask.delayed в другие функции dask.delayed

Последнее сообщение Anonymous « 29 ноя 2024, 18:36
Добавлено в форуме Python

Anonymous » 29 ноя 2024, 18:36 » в форуме Python

Я пытаюсь изучить dask и создал следующий игрушечный пример конвейера с задержкой.
+-----+ +-----+ +-----+
| baz +--+ bar +--+ foo |
+-----+ +-----+ +-----+

Итак, baz зависит от bar, который, в свою очередь, зависит от foo
I хотелось бы, чтобы...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
29 ноя 2024, 18:36
В dask.delayed получена ошибка: похоже, вы пытаетесь ссылаться на SparkContext из широковещательной переменной, действия

Последнее сообщение Anonymous « 07 дек 2024, 06:16
Добавлено в форуме Python

Anonymous » 07 дек 2024, 06:16 » в форуме Python

Я использую Spark и Dask для добавления в дельта-таблицу Databricks.
Вот упрощенный код, который я использую:
ds = xr.open_zarr(path, consolidated=True, chunks={})

def clean(ii):

ds_bite = ds.isel(time=range(ii , ii )).to_dataframe()

schema =...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
07 дек 2024, 06:16
Dask – Как оптимизировать вычисление первой строки каждого раздела в кадре данных dask?

Последнее сообщение Anonymous « 21 июн 2024, 18:52
Добавлено в форуме Python

Anonymous » 21 июн 2024, 18:52 » в форуме Python

Моя общая цель — прочитать несколько CSV-файлов, выполнить некоторые вычисления, сохранить их как базу данных паркета, используя опцию раздела_on в функции to_parquet.
Я не могу переиндексировать и перераспределить перед сохранением из-за...

0 Ответы

33 Просмотры

Последнее сообщение Anonymous
21 июн 2024, 18:52

Вернуться в «Python»