Процессы обучения были прерваны из-за ошибки «RuntimeError: нет аккумулятора оценок для сохраненного листа!»

Процессы обучения были прерваны из-за ошибки «RuntimeError: нет аккумулятора оценок для сохраненного листа!» ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Процессы обучения были прерваны из-за ошибки «RuntimeError: нет аккумулятора оценок для сохраненного листа!»

Цитата

Сообщение Anonymous » 22 сен 2024, 12:08

При обучении простой модели процессы были аварийно завершены из-за ошибки RuntimeError: нет аккумулятора градаций для сохраненного листа! в loss.backward(), но я проверяю все данные, необходимые для расчета градиентов устанавливаются на графические процессоры.

Код: Выделить всё

def train_epoch(args, epoch, model, loss_fn, optim, dataloader, lr_scheduler=None, warmup_scheduler=None):
model.train()
dataloader.sampler.set_epoch(epoch)

mae_m, loss_m = AverageMeter(), AverageMeter()
calc_m, read_m = AverageMeter(), AverageMeter()
timer = Timer()
log_step = len(dataloader) // 11
if args.local_rank == 0:
args.writer.add_scalar('lr', optim.param_groups[0]['lr'], epoch)

mae_list, pred_list = [], []

for step, sample in enumerate(dataloader):
data, label = sample['data'].cuda().requires_grad_(), sample['label'].cuda()
read_m.add(timer.tiktok())

optim.zero_grad()
# (output, deep_output), attn = model(data)
output = model(data)
output = output.reshape(label.shape)
# loss = loss_fn(output, label) + loss_fn(deep_output, label)
loss = loss_fn(output, label)
loss.backward(retain_graph=True)

Коды для обучения указаны выше. И ошибка одного из процессов показана ниже:
ошибка
Я обратился за помощью к GPT, последовал его совету и добавил .requires_grad_() для данных (в чем я думаю нет необходимости), чтобы быть уверенным, что будут рассчитаны градиенты, и я добавил continue_graph=True для loss.backward() . Но все равно не помогло.
Как решить эту проблему?

Подробнее здесь: https://stackoverflow.com/questions/790 ... ator-for-a

1726996136

Anonymous

При обучении простой модели процессы были аварийно завершены из-за ошибки RuntimeError: нет аккумулятора градаций для сохраненного листа! в loss.backward(), но я проверяю все данные, необходимые для расчета градиентов устанавливаются на графические процессоры.
[code]def train_epoch(args, epoch, model, loss_fn, optim, dataloader, lr_scheduler=None, warmup_scheduler=None):
model.train()
dataloader.sampler.set_epoch(epoch)

mae_m, loss_m = AverageMeter(), AverageMeter()
calc_m, read_m = AverageMeter(), AverageMeter()
timer = Timer()
log_step = len(dataloader) // 11
if args.local_rank == 0:
args.writer.add_scalar('lr', optim.param_groups[0]['lr'], epoch)

mae_list, pred_list = [], []

for step, sample in enumerate(dataloader):
data, label = sample['data'].cuda().requires_grad_(), sample['label'].cuda()
read_m.add(timer.tiktok())

optim.zero_grad()
# (output, deep_output), attn = model(data)
output = model(data)
output = output.reshape(label.shape)
# loss = loss_fn(output, label) + loss_fn(deep_output, label)
loss = loss_fn(output, label)
loss.backward(retain_graph=True)
[/code]
Коды для обучения указаны выше. И ошибка одного из процессов показана ниже:
ошибка
Я обратился за помощью к GPT, последовал его совету и добавил .requires_grad_() для данных (в чем я думаю нет необходимости), чтобы быть уверенным, что будут рассчитаны градиенты, и я добавил continue_graph=True для loss.backward() . Но все равно не помогло.
Как решить эту проблему? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79011167/the-training-processes-were-crashed-by-runtimeerror-no-grad-accumulator-for-a[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Процессы обучения были прерваны из-за ошибки «RuntimeError: нет аккумулятора оценок для сохраненного листа!» [закрыто]

Последнее сообщение Anonymous « 22 сен 2024, 21:16
Добавлено в форуме Python

Anonymous » 22 сен 2024, 21:16 » в форуме Python

При обучении простой модели процессы аварийно завершились с ошибкой RuntimeError: Нет аккумулятора градаций для сохраненного листа! в loss.backward(), но я убедился, что все данные, необходимые для расчета градиентов, на графических процессорах....

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
22 сен 2024, 21:16
Будут ли в многоуровневом планировщике очередей процессы с более высоким приоритетом вытеснять уже запущенные процессы с

Последнее сообщение Anonymous « 19 ноя 2024, 00:08
Добавлено в форуме Linux

Anonymous » 19 ноя 2024, 00:08 » в форуме Linux

Предположим, у нас есть две очереди: приоритет 1 с циклическим перебором и приоритет 2 с наименьшим оставшимся временем.
В момент времени 0 процесс A с пакетной нагрузкой ЦП на 10 единиц находится в SRTF. очередь. Он начинает выполняться, и во время...

0 Ответы

44 Просмотры

Последнее сообщение Anonymous
19 ноя 2024, 00:08
Почему подключение очереди PHP-FPM, когда Max Active процессы меньше, чем общие процессы

Последнее сообщение Anonymous « 08 фев 2025, 00:54
Добавлено в форуме Php

Anonymous » 08 фев 2025, 00:54 » в форуме Php

Моя команда использует PHP-FPM, настроенную статически с максимумом из 32 процессов, в кластере Kubernetes. Мы автомассалируем на основе метрик PHP-FPM, и есть много реплик. Я часто (то есть во всех репликах), вижу статус PHP-FPM, показывают...

0 Ответы

33 Просмотры

Последнее сообщение Anonymous
08 фев 2025, 00:54
Процессы завершаются во время обучения глубокому обучению (возможно, из-за высокой загрузки ЦП «netools»?)

Последнее сообщение Anonymous « 01 окт 2024, 23:10
Добавлено в форуме Linux

Anonymous » 01 окт 2024, 23:10 » в форуме Linux

Моя среда

ОС: Ubuntu 20.04

Привет!
Я столкнулся с проблемой, из-за которой процессы продолжают завершаться при выполнении обучения глубокому обучению в среде Linux, как показано ниже.
global_average_pooling2d ( (None, 1920) 0 ['relu ']...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
01 окт 2024, 23:10
Поднять RuntimeError(f «Каталог «{каталог}» не существует») RuntimeError: каталог «статический/» не существует из файла

Последнее сообщение Гость « 19 мар 2024, 12:38
Добавлено в форуме Python

Гость » 19 мар 2024, 12:38 » в форуме Python

Я получаю эту ошибку при запуске файла extract_img.py:

RuntimeError(f «Каталог '{directory}' не существует»)
Ошибка выполнения: каталог «static/» не существует в файле import fitz

Я не понимаю, почему это возвращает меня обратно сообщение об...

0 Ответы

187 Просмотры

Последнее сообщение Гость
19 мар 2024, 12:38

Вернуться в «Python»