目录
第 **分 强化学习基础
第 * 章 初探强化学习 2
*.* 简介 2
*.2 什么是强化学习 2
*.3 强化学习的环境 4
*.4 强化学习的目标 4
*.5 强化学习中的数据 5
*.6 强化学习的**性 6
*.7 小结 6
第 2 章 多臂老虎机问题 7
2.* 简介 7
2.2 问题介绍 7
2.2.* 问题定义 7
2.2.2 形式化描述 8
2.2.3 累积懊悔 8
2.2.4 估计期望奖励 8
2.3 探索与利用的平衡 *0
2.4 -贪婪算法 **
2.5 上置信界算法 *4
2.6 汤普森采样算法 *6
2.7 小结 *8
2.8 参考文献 *8
第 3 章 马尔可夫决策过程 *9
3.* 简介 *9
3.2 马尔可夫过程 *9
3.2.* 随机过程 *9
3.2.2 马尔可夫性质 *9
3.2.3 马尔可夫过程 20
3.3 马尔可夫奖励过程 2*
3.3.* 回报 2*
3.3.2 *值函数 22
3.4 马尔可夫决策过程 24
3.4.* 策略 25
3.4.2 状态*值函数 25
3.4.3 动作*值函数 25
3.4.4 贝尔曼期望方程 25
3.5 蒙*卡洛方法 28
3.6 占用度量 3*
3.7 最*策略 32
3.8 小结 33
3.9 参考文献 33
第 4 章 动态规划算法 34
4.* 简介 34
4.2 悬崖漫步环境 34
4.3 策略迭代算法 36
4.3.* 策略评估 36
4.3.2 策略提* 36
4.3.3 策略迭代 37
4.4 *值迭代算法 40
4.5 冰湖环境 42
4.6 小结 45
4.7 扩展阅读:收敛性证明 45
4.7.* 策略迭代 45
4.7.2 *值迭代 45
4.8 参考文献 46
第 5 章 时序差分算法 47
5.* 简介 47
5.2 时序差分 48
5.3 Sarsa 算法 48
5.4 多步 Sarsa 算法 53
5.5 Q-learning 算法 56
5.6 小结 60
5.7 扩展阅读:Q-learning 收敛性证明 6*
5.8 参考文献 62
第 6 章 Dyna-Q 算法 63
6.* 简介 63
6.2 Dyna-Q 63
6.3 Dyna-Q 代码实践 64
6.4 小结 69
6.5 参考文献 69
第二*分 强化学习进*
第 7 章 DQN算法 72
7.* 简介 72
7.2 车杆环境 72
7.3 DQN 73
7.3.* 经验回放 74
7.3.2 目标网络 74
7.4 DQN代码实践 75
7.5 以图像作为输入的DQN算法 79
7.6 小结 80
7.7 参考文献 80
第 8 章 DQN改进算法 8*
8.* 简介 8*
8.2 Double DQN 8*
8.3 Double DQN代码实践 82
8.4 Dueling DQN 88
8.5 Dueling DQN代码实践 90
8.6 小结 93
8.7 扩展阅读:对Q值过*估计的定量分析 93
8.8 参考文献 94
第 9 章 策略梯度算法 95
9.* 简介 95
9.2 策略梯度 95
9.3 REINFORCE 96
9.4 REINFORCE代码实践 97
9.5 小结 *00
9.6 扩展阅读:策略梯度证明 *00
9.7 参考文献 *02
第 *0 章 Actor-Critic算法 *03
*0.* 简介 *03
*0.2 Actor-Critic *03
*0.3 Actor-Critic代码实践 *05
*0.4 小结 *08
*0.5 参考文献 *08
第 ** 章 TRPO算法 *09
**.* 简介 *09
**.2 策略目标 *09
**.3 近似求解 ***
**.4 共轭梯度 **2
**.5 线性搜索 **2
**.6 广义*势估计 **3
**.7 TRPO代码实践 **4
**.8 小结 *22
**.9 参考文献 *23
第 *2 章 PPO算法 *24
*2.* 简介 *24
*2.2 PPO-惩罚 *24
*2.3 PPO-截断 *25
*2.4 PPO代码实践 *25
*2.5 小结 *3*
*2.6 参考文献 *32
第 *3 章 DDPG算法 *33
*3.* 简介 *33
*3.2 DDPG *33
*3.3 DDPG代码实践 *35
*3.4 小结 *40
*3.5 扩展阅读:确定性策略梯度定理的证明 *40
*3.6 参考文献 *4*
第 *4 章 SAC算法 *42
*4.* 简介 *42
*4.2 *大熵强化学习 *42
*4.3 Soft策略迭代 *43
*4.4 SAC *43
*4.5 SAC代码实践 *45
*4.6 小结 *54
*4.7 参考文献 *55
第三*分 强化学习前沿
第 *5 章 模仿学习 *58
*5.* 简介 *58
*5.2 行为克隆 *59
*5.3 生成对抗模仿学习 *59
*5.4 代码实践 *60
*5.4.* 生成*家数据 *60
*5.4.2 行为克隆的代码实践 *63
*5.4.3 生成对抗模仿学习的代码实践 *65
*5.5 小结 *67
*5.6 参考文献 *68
第 *6 章 模型预测控制 *69
*6.* 简介 *69
*6.2 打靶法 *69
*6.2.* 随机打靶法 *70
*6.2.2 交叉熵方法 *70
*6.3 PETS算法 *7*
*6.4 PETS算法实践 *72
*6.5 小结 *79
*6.6 参考文献 *79
第 *7 章 基于模型的策略*化 *80
*7.* 简介 *80
*7.2 MBPO算法 *80
*7.3 MBPO代码实践 *8*
*7.4 小结 *92
*7.5 拓展阅读:MBPO理论分析 *92
*7.5.* 性能提*的单调性*障 *92
*7.5.2 模型推演长度 *92
*7.6 参考文献 *93
第 *8 章 离线强化学习 *94
*8.* 简介 *94
*8.2 批量限制 Q-learning算法 *95
*8.3 *守 Q-learning算法 *97
*8.4 CQL代码实践 *99
*8.5 小结 208
*8.6 扩展阅读 208
*8.7 参考文献 2*0
第 *9 章 目标导向的强化学习 2**
*9.* 简介 2**
*9.2 问题定义 2**
*9.3 HER算法 2*2
*9.4 HER代码实践 2*3
*9.5 小结 22*
*9.6 参考文献 22*
第 20 章 多智能体强化学习入门 222
20.* 简介 222
20.2 问题建模 223
20.3 多智能体强化学习的基本求解范式 223
20.4 IPPO算法 223
20.5 IPPO代码实践 224
20.6 小结 228
20.7 参考文献 229
第 2* 章 多智能体强化学习进* 230
2*.* 简介 230
2*.2 MADDPG算法 230
2*.3 MADDPG代码实践 232
2*.4 小结 240
2*.5 参考文献 240
总结与展望 24*
总结 24*
展望:克服强化学习的落地挑战 24*
中英文术语对照表与符号表 244
中英文术语对照表 244
符号表 246