以此博客记录我的成长轨迹,与诸君共勉
09
25
强化学习之DQN超级进化版Rainbow 强化学习之DQN超级进化版Rainbow
阅读本文前可以先了解我前三篇文章《强化学习之DQN》《强化学习之DDQN》、《强化学习之 Dueling DQN》。 Rainbow结合了DQN算法的6个扩展改进,将它们集成在同一个智能体上,其中包括DDQN,Dueling DQN,Pr
2021-09-25
19
16
13
08
强化学习之PPO 强化学习之PPO
阅读本文前先了解TRPO算法有助于理解,我对此也写过博客:https://blog.csdn.net/tianjuewudi/article/details/120191097 参考李宏毅老师的视频:https://www.bilibi
2021-09-08
05
03
强化学习之TRPO 强化学习之TRPO
​ 注:TRPO算是我至今遇到过的最难理解的算法了,我查了很多资料,花费好几天时间,也未曾理解,向TRPO的一作致敬。。。本文是我的查资料笔记,由于公式过多,可以先学比较重要的PPO。 ​ TRPO全称为Trust
2021-09-03
02
01
08
29
强化学习之Dueling DQN 强化学习之Dueling DQN
注:本文续于《强化学习之DDQN》 Dueling DQN的思想是把神经网络中Q价值的输出分成两部分,第一部分是状态价值V,这部分价值由状态直接决定和Action无关。第二部分就是动作价值和状态价值的差值A,每一个Action都存在一个差
2021-08-29
8 / 13