Модель трансформатора дает правильные результаты во время обучения, но бессмыслицу при выводе — какие тонкие причины мне

Модель трансформатора дает правильные результаты во время обучения, но бессмыслицу при выводе — какие тонкие причины мне ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Модель трансформатора дает правильные результаты во время обучения, но бессмыслицу при выводе — какие тонкие причины мне

Цитата

Сообщение Anonymous » 23 ноя 2025, 13:52

Я использую модель PyTorch Transformer с одинаковой предварительной обработкой, токенизацией и весами как для обучения, так и для вывода. Во время обучения модель дает стабильные и правильные результаты, но во время вывода прогнозы становятся противоречивыми или бессмысленными.
Я уже проверил следующее:

Код: Выделить всё
```
model.eval()
```
установлен, а отсев отключен
Тот же токенизатор, словарь, маски и логика заполнения
Идентичные настройки устройства/dtype (fp16 во время обучения, fp32 во время вывода)
Нет отсутствующих или неожиданных ключей при загрузке весов

Какие тонкие проблемы могут привести к тому, что Трансформатор будет вести себя правильно во время обучения, но отклонится во время вывода? Существуют ли известные ловушки PyTorch, связанные с позиционным кодированием, масками внимания, масштабированием AMP или объединенными операциями, которые могут объяснить это?

Подробнее здесь: https://stackoverflow.com/questions/798 ... t-inferenc

1763895125

Anonymous

Я использую модель PyTorch Transformer с одинаковой предварительной обработкой, токенизацией и весами как для обучения, так и для вывода. Во время обучения модель дает стабильные и правильные результаты, но во время вывода прогнозы становятся противоречивыми или бессмысленными.
Я уже проверил следующее:
[list]
[*][code]model.eval()[/code] установлен, а отсев отключен

[*]Тот же токенизатор, словарь, маски и логика заполнения

[*]Идентичные настройки устройства/dtype (fp16 во время обучения, fp32 во время вывода)

[*]Нет отсутствующих или неожиданных ключей при загрузке весов

[/list]
Какие тонкие проблемы могут привести к тому, что Трансформатор будет вести себя правильно во время обучения, но отклонится во время вывода? Существуют ли известные ловушки PyTorch, связанные с позиционным кодированием, масками внимания, масштабированием AMP или объединенными операциями, которые могут объяснить это? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79827822/transformer-model-gives-correct-outputs-during-training-but-nonsense-at-inferenc[/url]