Разработка программного обеспечения с помощью TorchRL для предсказателя человеческих предпочтений [закрыто]

Разработка программного обеспечения с помощью TorchRL для предсказателя человеческих предпочтений [закрыто] ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Разработка программного обеспечения с помощью TorchRL для предсказателя человеческих предпочтений [закрыто]

Цитата

Сообщение Anonymous » 09 окт 2024, 00:34

Я пытаюсь реализовать документ «Глубокое обучение с подкреплением на основе человеческих предпочтений» в PyTorch, используя TorchRL. У меня готов веб-интерфейс для выбора предпочтений, а также большой кусок индивидуального преобразования Tensorflow в Torch (справочный репозиторий).
С учетом вышесказанного я хотел бы отойти от одного- преобразование «в один» в версию, которая распространяется на большее количество типов сред и легко подключается к существующей базе кода TorchRL.
Мои вопросы следующие:

Где лучше всего добавить такую функцию в базу кода TorchRL?
Каковы хорошие практики для такой реализации? то есть классы и метаклассы для наследования (или ссылки на них в кодовой базе TorchRL) или декораторы.

Пример кода с использованием TorchRL:

Код: Выделить всё

 DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'

env = GymEnv('Pendulum-v1', device=DEVICE)
env = TransformedEnv(env, lambda x: x)  # Arbitrary transformation that does nothing

obs_dim = 3
action_dim = 1

mlp_actor = MLP(num_cells=64, depth=3, in_features=obs_dim,
out_features=action_dim).to(DEVICE)
actor = TensorDictModule(
mlp_actor, in_keys=['observation'], out_keys=['action'])
mlp_value = MLP(num_cells=64, depth=2, in_features=obs_dim + action_dim,
out_features=action_dim).to(DEVICE)
critic = TensorDictSequential(TensorDictModule(
mlp_value, in_keys=['observation', 'action'], out_keys=['state_action_value']))
loss_fn = DDPGLoss(actor, critic).to(DEVICE)

collector = SyncDataCollector(env, AdditiveGaussianWrapper(
actor, spec=env.action_spec), frames_per_batch=1_000, total_frames=1_000_000)
buffer = TensorDictReplayBuffer(
storage=LazyTensorStorage(100_000, device=DEVICE))

optim = torch.optim.Adam(loss_fn.parameters(), lr=2e-4)

for data in tqdm(collector):
buffer.extend(data)
sample = buffer.sample(50)
loss = loss_fn(sample)
loss = loss['loss_actor'] + loss['loss_value']
loss.backward()
optim.step()
optim.zero_grad()

Примечание:
Я рассмотрел пример RLHF в репозитории TorchRL, который, насколько я понимаю, не совсем применим, поскольку RLHF выполняется после обучения, а DRLHP выполняется в начале. этапы обучения. Я также попробовал прямой перевод; однако, как уже упоминалось, я пытаюсь разработать программное обеспечение таким образом, чтобы оно больше соответствовало Torch и TorchRL.

Подробнее здесь: https://stackoverflow.com/questions/790 ... -predictor

1728423294

Anonymous

Я пытаюсь реализовать документ «Глубокое обучение с подкреплением на основе человеческих предпочтений» в PyTorch, используя TorchRL. У меня готов веб-интерфейс для выбора предпочтений, а также большой кусок индивидуального преобразования Tensorflow в Torch (справочный репозиторий).
С учетом вышесказанного я хотел бы отойти от одного- преобразование «в один» в версию, которая распространяется на большее количество типов сред и легко подключается к существующей базе кода TorchRL.
Мои вопросы следующие:
[list]
[*]Где лучше всего добавить такую функцию в базу кода TorchRL?
[*]Каковы хорошие практики для такой реализации? то есть классы и метаклассы для наследования (или ссылки на них в кодовой базе TorchRL) или декораторы.
[/list]
Пример кода с использованием TorchRL:[code] DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'

env = GymEnv('Pendulum-v1', device=DEVICE)
env = TransformedEnv(env, lambda x: x)  # Arbitrary transformation that does nothing

obs_dim = 3
action_dim = 1

mlp_actor = MLP(num_cells=64, depth=3, in_features=obs_dim,
out_features=action_dim).to(DEVICE)
actor = TensorDictModule(
mlp_actor, in_keys=['observation'], out_keys=['action'])
mlp_value = MLP(num_cells=64, depth=2, in_features=obs_dim + action_dim,
out_features=action_dim).to(DEVICE)
critic = TensorDictSequential(TensorDictModule(
mlp_value, in_keys=['observation', 'action'], out_keys=['state_action_value']))
loss_fn = DDPGLoss(actor, critic).to(DEVICE)

collector = SyncDataCollector(env, AdditiveGaussianWrapper(
actor, spec=env.action_spec), frames_per_batch=1_000, total_frames=1_000_000)
buffer = TensorDictReplayBuffer(
storage=LazyTensorStorage(100_000, device=DEVICE))

optim = torch.optim.Adam(loss_fn.parameters(), lr=2e-4)

for data in tqdm(collector):
buffer.extend(data)
sample = buffer.sample(50)
loss = loss_fn(sample)
loss = loss['loss_actor'] + loss['loss_value']
loss.backward()
optim.step()
optim.zero_grad()
[/code]
Примечание:
Я рассмотрел пример RLHF в репозитории TorchRL, который, насколько я понимаю, не совсем применим, поскольку RLHF выполняется после обучения, а DRLHP выполняется в начале. этапы обучения. Я также попробовал прямой перевод; однако, как уже упоминалось, я пытаюсь разработать программное обеспечение таким образом, чтобы оно больше соответствовало Torch и TorchRL. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79067852/software-engineering-with-torchrl-for-human-preference-predictor[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Разработка программного обеспечения с помощью TorchRL для предсказателя человеческих предпочтений [закрыто]

Последнее сообщение Anonymous « 09 окт 2024, 03:22
Добавлено в форуме Python

Anonymous » 09 окт 2024, 03:22 » в форуме Python

Я пытаюсь реализовать документ «Глубокое обучение с подкреплением на основе человеческих предпочтений» в PyTorch, используя TorchRL. Я бы хотел, чтобы предсказатель человеческих предпочтений был интегрирован в существующую кодовую базу TorchRL, а не...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 03:22
Разработка программного обеспечения для фотограмметрии на C++ или Python [закрыто]

Последнее сообщение Anonymous « 12 ноя 2024, 23:00
Добавлено в форуме Python

Anonymous » 12 ноя 2024, 23:00 » в форуме Python

Сегодня я решил сделать программу фотограмметрии, потому что я не видел бесплатного программного обеспечения и платной пробной версии, чувствую, что функциональность уже немного устарела, хотелось бы применить более современную и актуальную подход к...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
12 ноя 2024, 23:00
Разработка программного обеспечения для одновременного запуска программ Python

Последнее сообщение Anonymous « 06 янв 2025, 10:26
Добавлено в форуме Python

Anonymous » 06 янв 2025, 10:26 » в форуме Python

Мой вопрос касается не реализации в коде, а скорее базового дизайна или техники, которую мне следует использовать.
Исходная ситуация:
У меня есть программа на Python, которая выполняет симуляцию. Это следует начинать с разными параметрами в разное...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
06 янв 2025, 10:26
Проблема извлечения человеческих силуэтов из сегментированного изображения (felzenszwalb)

Последнее сообщение Anonymous « 12 ноя 2024, 14:12
Добавлено в форуме Python

Anonymous » 12 ноя 2024, 14:12 » в форуме Python

В настоящее время я работаю над извлечением бинарных силуэтов людей на изображении из общедоступного набора данных взаимодействия UT. Я применил к изображению сегментацию Фельценшвалба, чтобы разделить изображение на сегменты в соответствии с...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
12 ноя 2024, 14:12
Начало работы в области разработки программного обеспечения [закрыто]

Последнее сообщение Гость « 22 сен 2023, 21:45
Добавлено в форуме Python

Гость » 22 сен 2023, 21:45 » в форуме Python

Я только что поступил на факультет разработки программного обеспечения, и, честно говоря, я не могу полностью полагаться на учителей, которые научат меня всему, что связано с программной инженерией. Ребята, мне нужна ваша помощь, чтобы рассказать...

0 Ответы

57 Просмотры

Последнее сообщение Гость
22 сен 2023, 21:45

Вернуться в «Python»