import random
import gym
import numpy as np
from collections import deque
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import Adam
import os
env = gym.make('CartPole-v0')
state_size = env.observation_space.shape[0]
action_size = env.action_space.n
batch_size = 32
n_episodes = 1000
output_dir = 'model_output/cartpole'
if not os.path.exists(output_dir):
os.makedirs(output_dir)
class DQNAgent:
def __init__(self, state_size, action_size):
self.state_size = state_size
self.action_size = action_size
self.memory = deque(maxlen=2000)
self.gamma = 0.9
self.epsilon = 1.0
self.epsilon_decay = 0.995
self.epsilon_min = 0.05
self._learning_rate = 0.01
self.model = self._build_model()
def _build_model(self):
model = Sequential()
model.add(Dense(24, input_dim = self.state_size, activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(24,activation='relu'))
model.add(Dense(50,activation='relu'))
model.add(Dense(self.action_size, activation='sigmoid'))
model.compile(loss='mse', optimizer=Adam(lr=self._learning_rate))
return model
def remember(self, state, action, reward, next_state, done):
self.memory.append((self, state, action, reward, next_state, done))
def act(self, state):
if np.random.rand() self.epsilon_min:
self.epsilon *= self.epsilon_decay
def load(self,name):
self.model.load_weights(name)
def save(self, name):
self.model.save_weights(name)
agent = DQNAgent(state_size, action_size)
done = False
for e in range(n_episodes):
state = env.reset()
state = np.reshape(state, [1, state_size])
if agent.epsilon > agent.epsilon_min:
agent.epsilon *= agent.epsilon_decay
for time in range(5000):
# env.render()
action = agent.act(state)
next_state, reward, done, _ = env.step(action)
reward = reward if not done else -10
next_state = np.reshape(next_state, [1, state_size])
agent.remember(state, action, reward, next_state, done)
state = next_state
if done:
print("episode: {}/{}, score: {}, e: {:.2}".format(e, n_episodes, time, agent.epsilon))
break
if len(agent.memory) > batch_size:
agent.replay(batch_size)
if e % 50 == 0:
agent.save(output_dir + "weights_" + '{:04d}'.format(e) + ".hdf5")
Я создаю алгоритм для среды карт-поля в тренажерном зале Openai, но получаю следующую ошибку:
Traceback (последний последний вызов):
Файл «C:/Users/ardao/Desktop/Ardaficial Intelligence/DQNs/CartPole.py», строка 145, в
Agent.replay(batch_size)
Файл «C:/Users/ardao/Desktop/Ardaficial Intelligence/DQNs/CartPole.py», строка 93, в воспроизведении
для состояния, действия, вознаграждения, next_state, выполненного в мини-пакете:
ValueError: слишком много значений для распаковки (ожидается 5)
[code]import random import gym import numpy as np from collections import deque from keras.models import Sequential from keras.layers import Dense from keras.optimizers import Adam import os
for e in range(n_episodes): state = env.reset() state = np.reshape(state, [1, state_size]) if agent.epsilon > agent.epsilon_min: agent.epsilon *= agent.epsilon_decay
if done: print("episode: {}/{}, score: {}, e: {:.2}".format(e, n_episodes, time, agent.epsilon)) break
if len(agent.memory) > batch_size:
agent.replay(batch_size)
if e % 50 == 0: agent.save(output_dir + "weights_" + '{:04d}'.format(e) + ".hdf5") [/code]
Я создаю алгоритм для среды карт-поля в тренажерном зале Openai, но получаю следующую ошибку:
Traceback (последний последний вызов): Файл «C:/Users/ardao/Desktop/Ardaficial Intelligence/DQNs/CartPole.py», строка 145, в Agent.replay(batch_size) Файл «C:/Users/ardao/Desktop/Ardaficial Intelligence/DQNs/CartPole.py», строка 93, в воспроизведении для состояния, действия, вознаграждения, next_state, выполненного в мини-пакете: ValueError: слишком много значений для распаковки (ожидается 5)
Я следую этому руководству: [youtube]OYhFoMySoVs[/youtube]
Пишу что-то типа анонимных валентинок в телеграмме для определенной аудитории, и хочу сделать автоматическую модерацию, но так как работаю с этим впервые, то столкнулся с проблемой на первом этапе поиска ссылок внутри сообщений
import re
Я делаю несколько быстрых упражнений, используя библиотеку CV, пытаясь проанализировать цветные изображения.
Это мой код:
import cv2 as cv
img01=cv.imread('PATH')
from matplotlib import pyplot as plt
plt.imshow(cv.cvtColor(img01,cv.COLOR_BGR2RGB))...
Я использую Macbook Pro под управлением OS X Yosemite 10.10.4 и выполнял упражнения из раздела «Изучение Python на собственном горьком опыте». Я запускаю их на ноутбуках iPython, и их конфигурация следующая: