Dask: запись неограниченных данных в ОДИН файл NetCDF ПАРАЛЛЕЛЬНЫМ/РАСПРЕДЕЛЕННЫМ способом. ⇐ Python
-
Anonymous
Dask: запись неограниченных данных в ОДИН файл NetCDF ПАРАЛЛЕЛЬНЫМ/РАСПРЕДЕЛЕННЫМ способом.
Мне нужно экспортировать все мои неограниченные (на данный момент 1 ТБ) данные в один файл NetCDF.
Полный ETL состоит из:
[*]разнообразие вычислений. [*]ЗАТЕМ запись всех результатов в один файл NetCDF
Вопросы
[*]Может ли Dask принести какие-либо преимущества ПАРАЛЛЕЛЬНОЙ записи при записи в один NetCDF по сравнению с последовательным приложением?
Я имею в виду, конечно, что вычислительная часть ETL будет выполняться в параллельно благодаря Даску, но я не знаю, сможет ли Даск (по состоянию на 2024 год) писать на параллельно (или даже распределенно от разных работников) к один файл NetCDF в распределенной файловой системе? Поскольку NetCDF не поддерживает облачный формат
[*]Может ли Dask оптимизировать ПАМЯТЬ при записи в один NetCDF по сравнению с приложением, не относящимся к Dask? Действительно, сумма переменных данных составляет 1 ТБ, но на моем компьютере всего несколько ГБ памяти.
Я имею в виду, что при записи с использованием обычных библиотек NetCDF 4 в одну NetCDF с очень большими переменными, вам необходимо выделить их очень большие массивы (переменные), которые могут занимать много памяти. темно способен писать в один файл NetCDF, кусок за куском? (без необходимость инициализировать полный массив переменных)
Спасибо
Мне нужно экспортировать все мои неограниченные (на данный момент 1 ТБ) данные в один файл NetCDF.
Полный ETL состоит из:
[*]разнообразие вычислений. [*]ЗАТЕМ запись всех результатов в один файл NetCDF
Вопросы
[*]Может ли Dask принести какие-либо преимущества ПАРАЛЛЕЛЬНОЙ записи при записи в один NetCDF по сравнению с последовательным приложением?
Я имею в виду, конечно, что вычислительная часть ETL будет выполняться в параллельно благодаря Даску, но я не знаю, сможет ли Даск (по состоянию на 2024 год) писать на параллельно (или даже распределенно от разных работников) к один файл NetCDF в распределенной файловой системе? Поскольку NetCDF не поддерживает облачный формат
[*]Может ли Dask оптимизировать ПАМЯТЬ при записи в один NetCDF по сравнению с приложением, не относящимся к Dask? Действительно, сумма переменных данных составляет 1 ТБ, но на моем компьютере всего несколько ГБ памяти.
Я имею в виду, что при записи с использованием обычных библиотек NetCDF 4 в одну NetCDF с очень большими переменными, вам необходимо выделить их очень большие массивы (переменные), которые могут занимать много памяти. темно способен писать в один файл NetCDF, кусок за куском? (без необходимость инициализировать полный массив переменных)
Спасибо
Мобильная версия