Понимание расчета значения Q обучения Deep QPython

Программы на Python
Ответить
Anonymous
 Понимание расчета значения Q обучения Deep Q

Сообщение Anonymous »

Недавно я прочитал интригующую статью Энди Цзэна о применении глубокого Q-обучения в робототехнике под названием «Обучение синергии между толканием и хватанием с помощью глубокого обучения с самоконтролем». В этой статье автор использует полностью сверточную сеть (FCN) для прогнозирования попиксельных значений для каждого пикселя в карте высот, где каждое значение представляет собой ожидаемую награду (значение Q) для робота, выполняющего при этом действие толкания или захвата. конкретный пиксель.
Мне особенно интересно, как рассчитываются значения Q, особенно в контексте слоя Conv2D. Просматривая код, я заметил, что сетевая архитектура, используемая для вычисления значений Q, выглядит следующим образом:

Код: Выделить всё

self.pushnet = nn.Sequential(OrderedDict([
('push-norm0', nn.BatchNorm2d(2048)),
('push-relu0', nn.ReLU(inplace=True)),
('push-conv0', nn.Conv2d(2048, 64, kernel_size=1, stride=1, bias=False)),
('push-norm1', nn.BatchNorm2d(64)),
('push-relu1', nn.ReLU(inplace=True)),
('push-conv1', nn.Conv2d(64, 3, kernel_size=1, stride=1, bias=False))
]))
Я новичок в этой области, и я был бы очень признателен, если бы вы предоставили пример (для простоты используйте меньший размер ввода). Спасибо!
Я пробовал искать информацию о Conv2D, но, похоже, он в основном используется для обнаружения и распознавания объектов. Когда я искал его применение в обучении с подкреплением, объяснения были неясными и лишенными подробностей».

Подробнее здесь: https://stackoverflow.com/questions/792 ... q-learning
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»