zhihu-Torch在倒立摆(CartPole)游戏中实现强化学习
- 算法:DDQN、Duelling Network以及优先经验回放
一些讨论:
GAN是RL理论的一种实现。
RL是一个理论框架,GAN是在RL理论上开发的一种模型训练方法,但GAN更高明的一点是,生成式的网络和判别网络互为Environment,而RL则定义了机器根据环境的奖励后改变模型,然后来决定下一步action,再得到奖励来改变模型。所以GAN可以看成是一种双向强化学习。
正强化学习有环境学策略,逆强化学习就是反过来学环境