- num_train_epochs=5
- save_strategy="epoch"
- evaluation_strategy="epoch"
- load_best_model_at_end=False
Вот фрагмент моих аргументов в области обучения и настройки тренера:
Вот фрагмент моих аргументов в области обучения и настройки тренера:
p>
введите здесь описание изображения
outputTable
Я подозреваю, что это может быть связано с поведением ранней остановки, накоплением градиента, или какое-либо другое взаимодействие параметров.
Я также гарантировал, что обратный вызов с ранней остановкой не используется.
Кто-нибудь сталкивался с этой проблемой раньше или знает, как ее решить?
Любые предложения по отладке или настройке параметров будут оценены.
Что я пробовал:
Я установил num_train_epochs=5 в TrainingArguments и использовал трейнер из библиотеки Huggingface Transformers. Моей целью было обучить модель ровно 5 эпох. Я проверил, что не применялся обратный вызов досрочной остановки или дополнительная логика завершения.
Что я ожидал:
Процесс обучения должен выполняться для всех 5 эпох, регистрируя метрики и сохраняя контрольные точки после каждой. эпоха согласно настройке.
Что произошло:
Обучение остановилось после четвертой эпохи без каких-либо сообщений об ошибках. Журналы указывали на преждевременное завершение процесса обучения, хотя для num_train_epochs было явно установлено значение 5.
Подробнее здесь: https://stackoverflow.com/questions/793 ... all-epochs
Мобильная версия