Мне особенно интересно, как рассчитываются значения Q, особенно в контексте слоя Conv2D. Просматривая код, я заметил, что сетевая архитектура, используемая для вычисления значений Q, выглядит следующим образом:
Код: Выделить всё
self.pushnet = nn.Sequential(OrderedDict([
('push-norm0', nn.BatchNorm2d(2048)),
('push-relu0', nn.ReLU(inplace=True)),
('push-conv0', nn.Conv2d(2048, 64, kernel_size=1, stride=1, bias=False)),
('push-norm1', nn.BatchNorm2d(64)),
('push-relu1', nn.ReLU(inplace=True)),
('push-conv1', nn.Conv2d(64, 3, kernel_size=1, stride=1, bias=False))
]))
Я пробовал искать информацию о Conv2D, но, похоже, он в основном используется для обнаружения и распознавания объектов. Когда я искал его применение в обучении с подкреплением, объяснения были неясными и лишенными подробностей».
Подробнее здесь: https://stackoverflow.com/questions/792 ... q-learning
Мобильная версия