Тренер Huggingface останавливается, не успев завершить все эпохи

Тренер Huggingface останавливается, не успев завершить все эпохи ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Тренер Huggingface останавливается, не успев завершить все эпохи

Цитата

Сообщение Anonymous » 27 дек 2024, 18:54

Я использую Huggingface Trainer для задачи классификации последовательностей со следующей конфигурацией:

num_train_epochs=5
save_strategy="epoch"
evaluation_strategy="epoch"
load_best_model_at_end=False

Однако обучение прекращается после 4-й эпохи, хотя я ожидаю, что оно завершит все 5 эпох.
Вот фрагмент моих аргументов в области обучения и настройки тренера:
Вот фрагмент моих аргументов в области обучения и настройки тренера:
p>
введите здесь описание изображения
outputTable
Я подозреваю, что это может быть связано с поведением ранней остановки, накоплением градиента, или какое-либо другое взаимодействие параметров.
Я также гарантировал, что обратный вызов с ранней остановкой не используется.
Кто-нибудь сталкивался с этой проблемой раньше или знает, как ее решить?
Любые предложения по отладке или настройке параметров будут оценены.
Что я пробовал:
Я установил num_train_epochs=5 в TrainingArguments и использовал трейнер из библиотеки Huggingface Transformers. Моей целью было обучить модель ровно 5 эпох. Я проверил, что не применялся обратный вызов досрочной остановки или дополнительная логика завершения.
Что я ожидал:
Процесс обучения должен выполняться для всех 5 эпох, регистрируя метрики и сохраняя контрольные точки после каждой. эпоха согласно настройке.
Что произошло:
Обучение остановилось после четвертой эпохи без каких-либо сообщений об ошибках. Журналы указывали на преждевременное завершение процесса обучения, хотя для num_train_epochs было явно установлено значение 5.

Подробнее здесь: https://stackoverflow.com/questions/793 ... all-epochs

1735314871

Anonymous

Я использую Huggingface Trainer для задачи классификации последовательностей со следующей конфигурацией:
[list]
[*]num_train_epochs=5
[*]save_strategy="epoch"
[*]evaluation_strategy="epoch"
[*]load_best_model_at_end=False
[/list]
Однако обучение прекращается после 4-й эпохи, хотя я ожидаю, что оно завершит все 5 эпох.
Вот фрагмент моих аргументов в области обучения и настройки тренера:
Вот фрагмент моих аргументов в области обучения и настройки тренера:
p>
введите здесь описание изображения
outputTable
Я подозреваю, что это может быть связано с поведением ранней остановки, накоплением градиента, или какое-либо другое взаимодействие параметров.
Я также гарантировал, что обратный вызов с ранней остановкой не используется.
Кто-нибудь сталкивался с этой проблемой раньше или знает, как ее решить?
Любые предложения по отладке или настройке параметров будут оценены.
Что я пробовал:
Я установил num_train_epochs=5 в TrainingArguments и использовал трейнер из библиотеки Huggingface Transformers. Моей целью было обучить модель ровно 5 эпох. Я проверил, что не применялся обратный вызов досрочной остановки или дополнительная логика завершения.
Что я ожидал:
Процесс обучения должен выполняться для всех 5 эпох, регистрируя метрики и сохраняя контрольные точки после каждой. эпоха согласно настройке.
Что произошло:
Обучение остановилось после четвертой эпохи без каких-либо сообщений об ошибках. Журналы указывали на преждевременное завершение процесса обучения, хотя для num_train_epochs было явно установлено значение 5. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79312241/huggingface-trainer-stops-before-completing-all-epochs[/url]