Мой вопрос следующий:
- Где лучше всего добавить такую функцию в существующую базу кода TorchRL, чтобы она хорошо интегрировалась? т. е. как преобразование
Я рассмотрел пример RLHF в репозитории TorchRL, который, насколько я понимаю, не совсем применим, поскольку RLHF выполняется после обучения, а DRLHP — во время обучения.
Подробнее здесь: https://stackoverflow.com/questions/790 ... -predictor