Разработка программного обеспечения с помощью TorchRL для предсказателя человеческих предпочтений [закрыто]Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Разработка программного обеспечения с помощью TorchRL для предсказателя человеческих предпочтений [закрыто]

Сообщение Anonymous »

Я пытаюсь реализовать документ «Глубокое обучение с подкреплением на основе человеческих предпочтений» в PyTorch, используя TorchRL. Я бы хотел, чтобы предсказатель человеческих предпочтений был интегрирован в существующую кодовую базу TorchRL, а не в однозначном переводе ссылочного репозитория, который плохо интегрируется с различными средами.
Мой вопрос следующий:
  • Где лучше всего добавить такую ​​функцию в существующую базу кода TorchRL, чтобы она хорошо интегрировалась? т. е. как преобразование
Примечание:
Я рассмотрел пример RLHF в репозитории TorchRL, который, насколько я понимаю, не совсем применим, поскольку RLHF выполняется после обучения, а DRLHP — во время обучения.

Подробнее здесь: https://stackoverflow.com/questions/790 ... -predictor
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»