Как я могу написать псевдокод для марковского процесса принятия решений? ⇐ Python
Как я могу написать псевдокод для марковского процесса принятия решений?
Марковский процесс принятия решений, также известный как модель MDP, содержит следующий набор функций:
Множество возможных состояний С. Набор моделей. Набор возможных действий А. Действительная функция вознаграждения R(s,a). Решение марковского процесса принятия решений. Рассмотрим следующую сетку (3 на 3): Головоломка
Агент живет в сетке. Он начинается с номера сетки (1 * 1) и может перемещаться по сетке, используя следующие действия:
ВВЕРХ, ВНИЗ, ВЛЕВО, ВПРАВО
Цель агента — достичь номера сетки (3 * 3) с состоянием ромба.
Агент должен любой ценой избегать состояния пожара в сетке номер (3 * 1).
Кроме того, существует сетка блоков в состоянии (1 * 3), которую агент не может пройти и должен выбрать альтернативный маршрут.
Агент не может пройти через стену. Например, в стартовой сетке (1 * 1) агент может двигаться только ВВЕРХ или ВПРАВО.
На основе приведенной выше информации напишите псевдокод на Java или Python для решения проблемы с использованием марковского процесса принятия решений.
Псевдокод должен выполнять следующие действия:
Реализация статической среды (сетки) с использованием массива или другой структуры данных, которая будет представлять вышеуказанную сетку.
Функция/метод, позволяющая определить, какое действие следует предпринять. Решение должно быть основано на Марковском процессе принятия решений.
Рассмотрение политики вознаграждения, которая включает стоимость действий в дополнение к любым призам или штрафам, которые могут быть присуждены.
Функция/метод для расчета оптимальной политики при обнаружении состояния блокировки.
Функция/метод для расчета оптимальной политики при возникновении состояния пожара.
Функция/метод для проверки достижения желаемой цели или нет.
(Отступ моего кода имеет проблемы, и его нельзя загрузить здесь)
Марковский процесс принятия решений, также известный как модель MDP, содержит следующий набор функций:
Множество возможных состояний С. Набор моделей. Набор возможных действий А. Действительная функция вознаграждения R(s,a). Решение марковского процесса принятия решений. Рассмотрим следующую сетку (3 на 3): Головоломка
Агент живет в сетке. Он начинается с номера сетки (1 * 1) и может перемещаться по сетке, используя следующие действия:
ВВЕРХ, ВНИЗ, ВЛЕВО, ВПРАВО
Цель агента — достичь номера сетки (3 * 3) с состоянием ромба.
Агент должен любой ценой избегать состояния пожара в сетке номер (3 * 1).
Кроме того, существует сетка блоков в состоянии (1 * 3), которую агент не может пройти и должен выбрать альтернативный маршрут.
Агент не может пройти через стену. Например, в стартовой сетке (1 * 1) агент может двигаться только ВВЕРХ или ВПРАВО.
На основе приведенной выше информации напишите псевдокод на Java или Python для решения проблемы с использованием марковского процесса принятия решений.
Псевдокод должен выполнять следующие действия:
Реализация статической среды (сетки) с использованием массива или другой структуры данных, которая будет представлять вышеуказанную сетку.
Функция/метод, позволяющая определить, какое действие следует предпринять. Решение должно быть основано на Марковском процессе принятия решений.
Рассмотрение политики вознаграждения, которая включает стоимость действий в дополнение к любым призам или штрафам, которые могут быть присуждены.
Функция/метод для расчета оптимальной политики при обнаружении состояния блокировки.
Функция/метод для расчета оптимальной политики при возникновении состояния пожара.
Функция/метод для проверки достижения желаемой цели или нет.
(Отступ моего кода имеет проблемы, и его нельзя загрузить здесь)
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
KeyError при извлечении марковского бланкета с использованием алгоритма ПК на Python
Anonymous » » в форуме Python - 0 Ответы
- 15 Просмотры
-
Последнее сообщение Anonymous
-