DRL
基础微分PI也很困难,除非我们能把它转换成对数。求偏导
那么这个log的偏导怎么求呢?
回顾
TD 和SARSA几乎一样,只是把V换成Q
$$SARSA: Q(S,A) \larr Q(S,A) + \alpha[ R+ \gamma Q(S’,A’) - Q(S,A)] \TD(0): V(S_t) \larr V(S_t) + \alpha[ R+ \gamma V(S_{t+1}) - V(S_t)] \$$
Q-learning
Qlearning公式和SARSA相比,就差那么一个max。
$$QLeaning: Q(S,A) \larr Q(S,A) + \alpha[ R+ \gamma \max Q(S’, a) - Q(S,A)] \$$
DQNDQN = TD + 神经网络
DQN的深度网络,就像用一张布去覆盖Qlearning中的Qtable
DQN用magic函数,也就是神经网络解决了Qlearning不能解决的连续状态空间问题。
$$Q(S,A) \larr Q(S,A )+ \alpha \big[ R + \gamma \max Q(S’,
...