以此博客记录我的成长轨迹,与诸君共勉
10
06
强化学习之SAC 强化学习之SAC
参考视频:周博磊强化学习课程 价值函数优化学习主线:Q-learning→DQN→DDPG→TD3→SAC Q-Learning,DQN和DDPG请可以参考我之前的文章:强化学习实践教学 TD3可以参考我之前的博客:强化学习之TD3(p
2021-10-06
06
05
09
25
强化学习之DQN超级进化版Rainbow 强化学习之DQN超级进化版Rainbow
阅读本文前可以先了解我前三篇文章《强化学习之DQN》《强化学习之DDQN》、《强化学习之 Dueling DQN》。 Rainbow结合了DQN算法的6个扩展改进,将它们集成在同一个智能体上,其中包括DDQN,Dueling DQN,Pr
2021-09-25
19
16
13
08
强化学习之PPO 强化学习之PPO
阅读本文前先了解TRPO算法有助于理解,我对此也写过博客:https://blog.csdn.net/tianjuewudi/article/details/120191097 参考李宏毅老师的视频:https://www.bilibi
2021-09-08
05
03
强化学习之TRPO 强化学习之TRPO
​ 注:TRPO算是我至今遇到过的最难理解的算法了,我查了很多资料,花费好几天时间,也未曾理解,向TRPO的一作致敬。。。本文是我的查资料笔记,由于公式过多,可以先学比较重要的PPO。 ​ TRPO全称为Trust
2021-09-03
4 / 9