Модель трансформатора дает правильные результаты во время обучения, но бессмыслицу при выводе — какие тонкие причины мнеPython

Программы на Python
Ответить
Anonymous
 Модель трансформатора дает правильные результаты во время обучения, но бессмыслицу при выводе — какие тонкие причины мне

Сообщение Anonymous »

Я использую модель PyTorch Transformer с одинаковой предварительной обработкой, токенизацией и весами как для обучения, так и для вывода. Во время обучения модель дает стабильные и правильные результаты, но во время вывода прогнозы становятся противоречивыми или бессмысленными.
Я уже проверил следующее:
  • Код: Выделить всё

    model.eval()
    установлен, а отсев отключен
  • Тот же токенизатор, словарь, маски и логика заполнения
  • Идентичные настройки устройства/dtype (fp16 во время обучения, fp32 во время вывода)
  • Нет отсутствующих или неожиданных ключей при загрузке весов
Какие тонкие проблемы могут привести к тому, что Трансформатор будет вести себя правильно во время обучения, но отклонится во время вывода? Существуют ли известные ловушки PyTorch, связанные с позиционным кодированием, масками внимания, масштабированием AMP или объединенными операциями, которые могут объяснить это?

Подробнее здесь: https://stackoverflow.com/questions/798 ... t-inferenc
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»