Для глубокого обучения: сохранять каждый образец отдельно или сохранять блоки? данные не помещаются в память

Для глубокого обучения: сохранять каждый образец отдельно или сохранять блоки? данные не помещаются в память ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Для глубокого обучения: сохранять каждый образец отдельно или сохранять блоки? данные не помещаются в память

Цитата

Сообщение Anonymous » 02 авг 2024, 23:02

torch.load(dataset1_subject1.pt)

возвращает что-то вроде n_trials, n_channel, n_time
Короче говоря, мой набор данных слишком велик для памяти, и я ищу решение.
Каждая партия должна содержать образцы или исследования от нескольких субъектов.
Я хочу отметить несколько подходов. Некоторые говорят, что лучше загрузить некоторые данные, перетасовать их и поместить в большие блоки, загрузить один блок в память, выполнять выборку из него до тех пор, пока от него ничего не останется, а затем загрузить следующий блок. На мой взгляд, это хорошо, поскольку загрузка 10 блоков происходит быстрее, чем загрузка отдельных испытаний. Однако это усложняет перекрестную проверку, поскольку мне нужно отбирать новые блоки для каждого разделения перекрестных значений.
Другие говорят, что, возможно, лучше разделить данные на отдельные выборки. Итак, вместо:

Код: Выделить всё

ds1_sibject1.pt

Я бы сэкономил много:

Код: Выделить всё

ds1_subject1_sample001.pt

.
.
.
Файлы (77 тыс. файлов в моем случае).
Тогда я мог бы использовать такие вещи, как HDF5 или отображение памяти для отложенной загрузки (если честно, я не знаю разницы, но похоже, что они похожи).
Также мне нужно разделить это на отдельные испытания для использования HDF5? или я могу попробовать отдельные испытания от субъекта, не загружая весь субъект?
Тут такая путаница, и ChatGPT не смог помочь.
Также у меня есть красное сообщение об этом https://pytorch.org/blog/efficient-pyto ... many-gpus/
, что звучит очень многообещающе, поскольку я мог бы использовать В какой-то момент несколько графических процессоров.
В настоящее время я склонен разбивать его на отдельные файлы по 77 тысяч и использовать метод, при котором он заархивирован в виде .tar
Что бы вы порекомендовали? Кто-нибудь здесь сталкивался с подобными проблемами? Помощь очень ценится!

Подробнее здесь: https://stackoverflow.com/questions/788 ... doesnt-fit

1722628959

Anonymous

Я обучаю классификатора. Мои данные поступают из нескольких наборов данных, каждый набор данных содержит несколько субъектов, каждый субъект провел несколько испытаний. В настоящее время моя структура данных на диске выглядит следующим образом:
-dataset1_subject1.pt
-dataset1_subject2.pt
-dataset1_subjectX.pt
.
.
.
-datasetN_subjectX.pt
Каждый субъект выполнил различное количество испытаний. Итак
[code]torch.load(dataset1_subject1.pt)[/code] возвращает что-то вроде n_trials, n_channel, n_time
Короче говоря, мой набор данных слишком велик для памяти, и я ищу решение.
Каждая партия должна содержать образцы или исследования от нескольких субъектов.
Я хочу отметить несколько подходов. Некоторые говорят, что лучше загрузить некоторые данные, перетасовать их и поместить в большие блоки, загрузить один блок в память, выполнять выборку из него до тех пор, пока от него ничего не останется, а затем загрузить следующий блок. На мой взгляд, это хорошо, поскольку загрузка 10 блоков происходит быстрее, чем загрузка отдельных испытаний. Однако это усложняет перекрестную проверку, поскольку мне нужно отбирать новые блоки для каждого разделения перекрестных значений.
Другие говорят, что, возможно, лучше разделить данные на отдельные выборки. Итак, вместо:
[code]ds1_sibject1.pt
[/code]
Я бы сэкономил много:
[code]ds1_subject1_sample001.pt
[/code]
.
.
.
Файлы (77 тыс. файлов в моем случае).
Тогда я мог бы использовать такие вещи, как HDF5 или отображение памяти для отложенной загрузки (если честно, я не знаю разницы, но похоже, что они похожи).
Также мне нужно разделить это на отдельные испытания для использования HDF5? или я могу попробовать отдельные испытания от субъекта, не загружая весь субъект?
Тут такая путаница, и ChatGPT не смог помочь.
Также у меня есть красное сообщение об этом https://pytorch.org/blog/efficient-pytorch-io-library-for-large-datasets-many-files-many-gpus/
, что звучит очень многообещающе, поскольку я мог бы использовать В какой-то момент несколько графических процессоров.
В настоящее время я склонен разбивать его на отдельные файлы по 77 тысяч и использовать метод, при котором он заархивирован в виде .tar
Что бы вы порекомендовали? Кто-нибудь здесь сталкивался с подобными проблемами? Помощь очень ценится!

Подробнее здесь: [url]https://stackoverflow.com/questions/78826862/for-deep-learning-save-each-sample-individually-or-keep-blocks-data-doesnt-fit[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Проблема обучения модели глубокого обучения

Последнее сообщение Anonymous « 21 май 2024, 01:22
Добавлено в форуме Python

Anonymous » 21 май 2024, 01:22 » в форуме Python

Я столкнулся с проблемой во время построения модели глубокого обучения и процесса обучения, когда работал с Jupyter Notebook в коде VS.
Я пытался обучить модель глубокого обучения, которую я построил с помощью Tensorflow, используя метод model.fit,...

0 Ответы

59 Просмотры

Последнее сообщение Anonymous
21 май 2024, 01:22
Dask объединяет два больших фрейма данных, которые не помещаются в память

Последнее сообщение Anonymous « 14 янв 2025, 20:38
Добавлено в форуме Python

Anonymous » 14 янв 2025, 20:38 » в форуме Python

Мне нужно объединить большие фреймы данных в dask, но ядро моего ноутбука Jupyter выходит из строя из-за нехватки памяти. У меня 64 ГБ ОЗУ, но исходные наборы данных настолько скудны (данные о медицинских требованиях), и это объединение приводит к...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
14 янв 2025, 20:38
Образец образец фиксированного параметра в зависимости от другого параметра

Последнее сообщение Anonymous « 04 авг 2025, 07:59
Добавлено в форуме Python

Anonymous » 04 авг 2025, 07:59 » в форуме Python

В моем настройке у меня есть абстрактная ситуация, например, следующая, которая должна функционировать только в качестве примера:
base = trial.suggest_int(1, 3)
power = trial.suggest_int(1, 10)
# value = base ** power

, как при базе == 1...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
04 авг 2025, 07:59
Данные таблицы иностранных ключей помещаются в отдельные строки вместо соседних рядов (Sveltekit и Supabase)

Последнее сообщение Anonymous « 10 мар 2025, 11:13
Добавлено в форуме Html

Anonymous » 10 мар 2025, 11:13 » в форуме Html

Мне нужны данные LawfirmName (та, которая вводит в таблицу LawyersContactProfiles, продукты и веб -сайты), прилегающие к любым другим данным, были вставлены одновременно.
Например, если я импортирую CSV в таблицу: Продукты - Столбная: Вход вместо...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
10 мар 2025, 11:13
Данные таблицы иностранных ключей помещаются в отдельные строки вместо соседних рядов (Sveltekit и Supabase)

Последнее сообщение Anonymous « 10 мар 2025, 11:13
Добавлено в форуме Javascript

Anonymous » 10 мар 2025, 11:13 » в форуме Javascript

Мне нужны данные LawfirmName (та, которая вводит в таблицу LawyersContactProfiles, продукты и веб -сайты), прилегающие к любым другим данным, были вставлены одновременно.
Например, если я импортирую CSV в таблицу: Продукты - Столбная: Вход вместо...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
10 мар 2025, 11:13

Вернуться в «Python»