Понимание расчета значения Q обучения Deep Q

Понимание расчета значения Q обучения Deep Q ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Понимание расчета значения Q обучения Deep Q

Цитата

Сообщение Anonymous » 27 ноя 2024, 08:44

Недавно я прочитал интригующую статью Энди Цзэна о применении глубокого Q-обучения в робототехнике под названием «Обучение синергии между толканием и хватанием с помощью глубокого обучения с самоконтролем». В этой статье автор использует полностью сверточную сеть (FCN) для прогнозирования попиксельных значений для каждого пикселя в карте высот, где каждое значение представляет собой ожидаемую награду (значение Q) для робота, выполняющего при этом действие толкания или захвата. конкретный пиксель.
Мне особенно интересно, как рассчитываются значения Q, особенно в контексте слоя Conv2D. Просматривая код, я заметил, что сетевая архитектура, используемая для вычисления значений Q, выглядит следующим образом:

Код: Выделить всё

self.pushnet = nn.Sequential(OrderedDict([
('push-norm0', nn.BatchNorm2d(2048)),
('push-relu0', nn.ReLU(inplace=True)),
('push-conv0', nn.Conv2d(2048, 64, kernel_size=1, stride=1, bias=False)),
('push-norm1', nn.BatchNorm2d(64)),
('push-relu1', nn.ReLU(inplace=True)),
('push-conv1', nn.Conv2d(64, 3, kernel_size=1, stride=1, bias=False))
]))

Я новичок в этой области, и я был бы очень признателен, если бы вы предоставили пример (для простоты используйте меньший размер ввода). Спасибо!
Я пробовал искать информацию о Conv2D, но, похоже, он в основном используется для обнаружения и распознавания объектов. Когда я искал его применение в обучении с подкреплением, объяснения были неясными и лишенными подробностей».

Подробнее здесь: https://stackoverflow.com/questions/792 ... q-learning

1732686240

Anonymous

Недавно я прочитал интригующую статью Энди Цзэна о применении глубокого Q-обучения в робототехнике под названием «Обучение синергии между толканием и хватанием с помощью глубокого обучения с самоконтролем». В этой статье автор использует полностью сверточную сеть (FCN) для прогнозирования попиксельных значений для каждого пикселя в карте высот, где каждое значение представляет собой ожидаемую награду (значение Q) для робота, выполняющего при этом действие толкания или захвата. конкретный пиксель.
Мне особенно интересно, как рассчитываются значения Q, особенно в контексте слоя Conv2D. Просматривая код, я заметил, что сетевая архитектура, используемая для вычисления значений Q, выглядит следующим образом:
[code]self.pushnet = nn.Sequential(OrderedDict([
('push-norm0', nn.BatchNorm2d(2048)),
('push-relu0', nn.ReLU(inplace=True)),
('push-conv0', nn.Conv2d(2048, 64, kernel_size=1, stride=1, bias=False)),
('push-norm1', nn.BatchNorm2d(64)),
('push-relu1', nn.ReLU(inplace=True)),
('push-conv1', nn.Conv2d(64, 3, kernel_size=1, stride=1, bias=False))
]))
[/code]
Я новичок в этой области, и я был бы очень признателен, если бы вы предоставили пример (для простоты используйте меньший размер ввода). Спасибо!
Я пробовал искать информацию о Conv2D, но, похоже, он в основном используется для обнаружения и распознавания объектов. Когда я искал его применение в обучении с подкреплением, объяснения были неясными и лишенными подробностей». 

Подробнее здесь: [url]https://stackoverflow.com/questions/79229054/understanding-of-calculation-q-value-of-deep-q-learning[/url]