Я использую модель PyTorch Transformer с одинаковой предварительной обработкой, токенизацией и весами как для обучения, так и для вывода. Во время обучения модель дает стабильные и правильные результаты, но во время вывода прогнозы становятся противоречивыми или бессмысленными.
Я уже проверил следующее:
- установлен, а отсев отключен
- Тот же токенизатор, словарь, маски и логика заполнения
- Идентичные настройки устройства/dtype (fp16 во время обучения, fp32 во время вывода)
- Нет отсутствующих или неожиданных ключей при загрузке весов
Какие тонкие проблемы могут привести к тому, что Трансформатор будет вести себя правильно во время обучения, но отклонится во время вывода? Существуют ли известные ловушки PyTorch, связанные с позиционным кодированием, масками внимания, масштабированием AMP или объединенными операциями, которые могут объяснить это?
Подробнее здесь:
https://stackoverflow.com/questions/798 ... t-inferenc