目录
《深度强化学习》
序言 i
前言 v
常用符号 xi
第 一部分 基础知识
第 1章 机器学习基础 2
1.1 线性模型 2
1.1.1 线性回归 2
1.1.2 逻辑斯谛回归 4
1.1.3 softmax分类器 7
1.2 神经网络 10
1.2.1 全连接神经网络 10
1.2.2 卷积神经网络 11
1.3 梯度下降和反向传播 12
1.3.1 梯度下降 13
1.3.2 反向传播 14
知识点小结 16
习题 16
第 2章 蒙特卡洛方法 18
2.1 随机变量 18
2.2 蒙特卡洛方法实例 21
2.2.1 例一:近似π值 21
2.2.2 例二:估算阴影部分面积 23
2.2.3 例三:近似定积分 25
2.2.4 例四:近似期望 26
2.2.5 例五:随机梯度 27
知识点小结 29
习题 29
第3章 强化学习基本概念 31
3.1 马尔可夫决策过程 31
3.1.1 状态、动作、奖励 31
3.1.2 状态转移 32
3.2 策略 33
3.3 随机性 35
3.4 回报与折扣回报 37
3.4.1 回报 37
3.4.2 折扣回报 37
3.4.3 回报中的随机性 38
3.4.4 有限期MDP和无限期MDP 39
3.5 价值函数 39
3.5.1 动作价值函数 40
3.5.2 *动作价值函数 40
3.5.3 状态价值函数 41
3.6 实验环境:OpenAI Gym 42
知识点小结 44
习题 44
*部分 价值学习
第4章 DQN与Q学习 48
4.1 DQN 48
4.1.1 概念回顾 48
4.1.2 DQN表达式 49
4.1.3 DQN的梯度 50
4.2 TD算法 50
4.2.1 驾车时间预测示例 50
4.2.2 TD算法的原理 51
4.3 用TD训练DQN 53
4.3.1 算法推导 53
4.3.2 训练流程 55
4.4 Q 学习算法 57
4.4.1 表格形式的Q学习 57
4.4.2 算法推导 57
4.4.3 训练流程 58
4.5 同策略与异策略 59
相关文献 60
知识点小结 61
习题 61
第5章 SARSA算法 63
5.1 表格形式的SARSA 63
5.1.1 算法推导 63
5.1.2 训练流程 64
5.1.3 Q学习与SARSA的对比 65
5.2 神经网络形式的SARSA 66
5.2.1 价值网络 66
5.2.2 算法推导 66
5.2.3 训练流程 67
5.3 多步TD目标 68
5.3.1 算法推导 68
5.3.2 多步TD目标的原理 69
5.3.3 训练流程 70
5.4 蒙特卡洛方法与自举 70
5.4.1 蒙特卡洛方法 71
5.4.2 自举 71
5.4.3 蒙特卡洛方法和自举的对比 72
相关文献 73
知识点小结 73
习题 74
第6章 价值学习*技巧 75
6.1 经验回放 75
6.1.1 经验回放的优点 76
6.1.2 经验回放的局限性 76
6.1.3 优先经验回放 77
6.2 高估问题及解决方法 79
6.2.1 自举导致偏差传播 79
6.2.2 *化导致高估 80
6.2.3 高估的危害 81
6.2.4 使用目标网络 82
6.2.5 双Q学习算法 84
6.2.6 总结 85
6.3 对决网络 86
6.3.1 *优势函数 86
6.3.2 对决网络的结构 87
6.3.3 解决不*性 88
6.3.4 对决网络的实际实现 89
6.4 噪声网络 90
6.4.1 噪声网络的原理 90
6.4.2 噪声DQN 91
6.4.3 训练流程 93
相关文献 94
知识点小结 94
习题 94
第三部分 策略学习
第7章 策略梯度方法 98
7.1 策略网络 98
7.2 策略学习的目标函数 99
7.3 策略梯度定理 101
7.3.1 简化证明 101
7.3.2 严格证明 102
7.3.3 近似策略梯度 106
7.4 REINFORCE 107
7.4.1 简化推导 108
7.4.2 训练流程 108
7.4.3 严格推导 109
7.5 actor-critic 110
7.5.1 价值网络 110
7.5.2 算法推导 111
7.5.3 训练流程 114
7.5.4 用目标网络改进训练 114
相关文献 115
知识点小结 115
习题 116
第8章 带基线的策略梯度方法 117
8.1 策略梯度中的基线 117
8.1.1 基线的引入 117
8.1.2 基线的直观解释 118
8.2 带基线的REINFORCE算法 119
8.2.1 策略网络和价值网络 120
8.2.2 算法推导 121
8.2.3 训练流程 121
8.3 advantage actor-critic 122
8.3.1 算法推导 123
8.3.2 训练流程 125
8.3.3 用目标网络改进训练 126
8.4 证明带基线的策略梯度定理 127
知识点小结 128
习题 128
第9章 策略学习*技巧 129
9.1 置信域策略优化 129
9.1.1 置信域方法 129
9.1.2 策略学习的目标函数 132
9.1.3 算法推导 133
9.1.4 训练流程 135
9.2 策略学习中的熵正则 135
相关文献 138
知识点小结 138
第 10章 连续控制 139
10.1 连续空间的离散化 139
10.2 深度确定性策略梯度 140
10.2.1 策略网络和价值网络 140
10.2.2 算法推导 142
10.3 深入分析DDPG 145
10.3.1 从策略学习的角度看待DDPG 145
10.3.2 从价值学习的角度看待DDPG 146
10.3.3 DDPG的高估问题 147
10.4 双延迟深度确定性策略梯度 148
10.4.1 高估问题的解决方案——目标网络 148
10.4.2 高估问题的解决方案——截断双Q学习 148
10.4.3 其他改进点 149
10.4.4 训练流程 150
10.5 随机高斯策略 151
10.5.1 基本思路 152
10.5.2 随机高斯策略网络 153
10.5.3 策略梯度 154
10.5.4 用REINFORCE学习参数 155
10.5.5 用actor-critic学习参数 155
相关文献 157
知识点小结 157
第 11章 对状态的不完全观测 158
11.1 不完全观测问题 158
11.2 循环神经网络 159
11.3 基于RNN的策略网络 161
相关文献 162
知识点小结 163
习题 163
第 12章 模仿学习 165
12.1 行为克隆 165
12.1.1 连续控制问题 165
12.1.2 离散控制问题 166
12.1.3 行为克隆与强化学习的对比 168
12.2 逆向强化学习 169
12.2.1 IRL的基本设定 169
12.2.2 IRL的基本思想 170
12.2.3 从黑箱策略反推奖励 170
12.2.4 用奖励函数训练策略网络 171
12.3 生成判别模仿学习 171
12.3.1 生成判别网络 172
12.3.2 GAIL的生成器和判别器 175
12.3.3 GAIL的训练 176
相关文献 178
知识点小结 179
第四部分 多智能体强化学习
第 13章 并行计算 182
13.1 并行计算基础 182
13.1.1 并行梯度下降 182
13.1.2 MapReduce 183
13.1.3 用 MapReduce实现并行梯度下降 184
13.1.4 并行计算的代价 187
13.2 同步与异步 188
13.2.1 同步算法 188
13.2.2 异步算法 189
13.2.3 同步梯度下降与异步梯度下降的对比 191
13.3 并行强化学习 191
13.3.1 异步并行双Q学习 191
13.3.2 A3C:异步并行A2C 193
相关文献 195
知识点小结 195
习题 196
第 14章 多智能体系统 197
14.1 常见设定 197
14.2 基本概念 199
14.2.1 专业术语 199
14.2.2 策略网络 200
14.2.3 动作价值函数 200
14.2.4 状态价值函数 201
14.3 实验环境 202
14.3.1 multi-agent particle world 202
14.3.2 StarCraft multi-agent challenge 204
14.3.3 Hanabi Challenge 205
相关文献 206
知识点小结 206
第 15章 完全合作关系设定下的多智能体强化学习 207
15.1 完全合作关系设定下的策略学习 208
15.2 完全合作关系设定下的多智能体A2C 209
15.2.1 策略网络和价值网络 209
15.2.2 训练和决策 211
15.2.3 实现中的难点 212
15.3 三种架构 213
15.3.1 中心化训练+中心化决策 214
15.3.2 去中心化训练+去中心化决策 215
15.3.3 中心化训练+去中心化决策 217
相关文献 219
知识点小结 220
习题 220
第 16章 非合作关系设定下的多智能体强化学习 221
16.1 非合作关系设定下的策略学习 222
16.1.1 非合作关系设定下的目标函数 222
16.1.2 收敛的判别 223
16.1.3 评价策略的优劣 223
16.2 非合作关系设定下的多智能体A2C 224
16.2.1 策略网络和价值网络 224
16.2.2 算法推导 225
16.2.3 训练 226
16.2.4 决策 227
16.3 三种架构 227
16.3.1 中心化训练+中心化决策 227
16.3.2 去中心化训练+去中心化决策 228
16.3.3 中心化训练+去中心化决策 229
16.4 连续控制与MADDPG 231
16.4.1 策略网络和价值网络 231
16.4.2 算法推导 232
16.4.3 中心化训练 234
16.4.4 去中心化决策 236
相关文献 237
知识点小结 237
第 17章 注意力机制与多智能体强化学习 238
17.1 自注意力机制 238
17.1.1 自注意力层 239
17.1.2 多头自注意力层 241
17.2 自注意力改进多智能体强化学习 242
17.2.1 不使用自注意力的状态价值网络 242
17.2.2 使用自注意力的状态价值网络 243
17.2.3 使用自注意力的动作价值网络 244
17.2.4 使用自注意力的中心化策略网络 244
17.2.5 总结 245
相关文献 245
知识点小结 245
习题 246
第五部分 应用与展望
第 18章 AlphaGo与蒙特卡洛树搜索 248
18.1 强化学习眼中的围棋 248
18.2 蒙特卡洛树搜索 250
18.2.1 MCTS的基本思想 250
18.2.2 MCTS的四个步骤 250
18.2.3 MCTS的决策 255
18.3 训练策略网络和价值网络 255
18.3.1 AlphaGo 2016版本的训练 256
18.3.2 AlphaGo Zero版本的训练 258
相关文献 260
知识点小结 260
习题 261
第 19章 现实世界中的应用 262
19.1 神经网络结构搜索 262
19.1.1 *参数和交叉验证 262
19.1.2 强化学习方法 264
19.2 自动生成SQL语句 266
19.3 推荐系统 268
19.4 网约车调度 270
19.4.1 价值学习 271
19.4.2 派单机制 271
19.5 强化学习与监督学习的对比 273
19.5.1 决策是否改变环境 273
19.5.2 当前奖励还是长线回报 274
19.6 制约强化学习落地应用的因素 275
19.6.1 所需的样本数量过大 275
19.6.2 探索阶段代价太大 276
19.6.3 *参数的影响非常大 277
19.6.4 稳定性极差 278
知识点小结 279
附录A 贝尔曼方程 281
附录B 习题答案 283
参考文献 288
《动手学强化学习》
第 一部分 强化学习基础
第 1 章 初探强化学习 2
1.1 简介 2
1.2 什么是强化学习 2
1.3 强化学习的环境 4
1.4 强化学习的目标 4
1.5 强化学习中的数据 5
1.6 强化学习的独特性 6
1.7 小结 6
第 2 章 多臂老虎机问题 7
2.1 简介 7
2.2 问题介绍 7
2.2.1 问题定义 7
2.2.2 形式化描述 8
2.2.3 累积懊悔 8
2.2.4 估计期望奖励 8
2.3 探索与利用的平衡 10
2.4 -贪婪算法 11
2.5 上置信界算法 14
2.6 汤普森采样算法 16
2.7 小结 18
2.8 参考文献 18
第 3 章 马尔可夫决策过程 19
3.1 简介 19
3.2 马尔可夫过程 19
3.2.1 随机过程 19
3.2.2 马尔可夫性质 19
3.2.3 马尔可夫过程 20
3.3 马尔可夫奖励过程 21
3.3.1 回报 21
3.3.2 价值函数 22
3.4 马尔可夫决策过程 24
3.4.1 策略 25
3.4.2 状态价值函数 25
3.4.3 动作价值函数 25
3.4.4 贝尔曼期望方程 25
3.5 蒙特卡洛方法 28
3.6 占用度量 31
3.7 *策略 32
3.8 小结 33
3.9 参考文献 33
第 4 章 动态规划算法 34
4.1 简介 34
4.2 悬崖漫步环境 34
4.3 策略迭代算法 36
4.3.1 策略评估 36
4.3.2 策略提升 36
4.3.3 策略迭代 37
4.4 价值迭代算法 40
4.5 冰湖环境 42
4.6 小结 45
4.7 扩展阅读:收敛性证明 45
4.7.1 策略迭代 45
4.7.2 价值迭代 45
4.8 参考文献 46
第 5 章 时序差分算法 47
5.1 简介 47
5.2 时序差分 48
5.3 Sarsa 算法 48
5.4 多步 Sarsa 算法 53
5.5 Q-learning 算法 56
5.6 小结 60
5.7 扩展阅读:Q-learning 收敛性证明 61
5.8 参考文献 62
第 6 章 Dyna-Q 算法 63
6.1 简介 63
6.2 Dyna-Q 63
6.3 Dyna-Q 代码实践 64
6.4 小结 69
6.5 参考文献 69
*部分 强化学习进阶
第 7 章 DQN算法 72
7.1 简介 72
7.2 车杆环境 72
7.3 DQN 73
7.3.1 经验回放 74
7.3.2 目标网络 74
7.4 DQN代码实践 75
7.5 以图像作为输入的DQN算法 79
7.6 小结 80
7.7 参考文献 80
第 8 章 DQN改进算法 81
8.1 简介 81
8.2 Double DQN 81
8.3 Double DQN代码实践 82
8.4 Dueling DQN 88
8.5 Dueling DQN代码实践 90
8.6 小结 93
8.7 扩展阅读:对Q值过高估计的定量分析 93
8.8 参考文献 94
第 9 章 策略梯度算法 95
9.1 简介 95
9.2 策略梯度 95
9.3 REINFORCE 96
9.4 REINFORCE代码实践 97
9.5 小结 100
9.6 扩展阅读:策略梯度证明 100
9.7 参考文献 102
第 10 章 Actor-Critic算法 103
10.1 简介 103
10.2 Actor-Critic 103
10.3 Actor-Critic代码实践 105
10.4 小结 108
10.5 参考文献 108
第 11 章 TRPO算法 109
11.1 简介 109
11.2 策略目标 109
11.3 近似求解 111
11.4 共轭梯度 112
11.5 线性搜索 112
11.6 广义优势估计 113
11.7 TRPO代码实践 114
11.8 小结 122
11.9 参考文献 123
第 12 章 PPO算法 124
12.1 简介 124
12.2 PPO-惩罚 124
12.3 PPO-截断 125
12.4 PPO代码实践 125
12.5 小结 131
12.6 参考文献 132
第 13 章 DDPG算法 133
13.1 简介 133
13.2 DDPG 133
13.3 DDPG代码实践 135
13.4 小结 140
13.5 扩展阅读:确定性策略梯度定理的证明 140
13.6 参考文献 141
第 14 章 SAC算法 142
14.1 简介 142
14.2 *熵强化学习 142
14.3 Soft策略迭代 143
14.4 SAC 143
14.5 SAC代码实践 145
14.6 小结 154
14.7 参考文献 155
第三部分 强化学习前沿
第 15 章 模仿学习 158
15.1 简介 158
15.2 行为克隆 159
15.3 生成对抗模仿学习 159
15.4 代码实践 160
15.4.1 生成*数据 160
15.4.2 行为克隆的代码实践 163
15.4.3 生成对抗模仿学习的代码实践 165
15.5 小结 167
15.6 参考文献 168
第 16 章 模型预测控制 169
16.1 简介 169
16.2 打靶法 169
16.2.1 随机打靶法 170
16.2.2 交叉熵方法 170
16.3 PETS算法 171
16.4 PETS算法实践 172
16.5 小结 179
16.6 参考文献 179
第 17 章 基于模型的策略优化 180
17.1 简介 180
17.2 MBPO算法 180
17.3 MBPO代码实践 181
17.4 小结 192
17.5 拓展阅读:MBPO理论分析 192
17.5.1 性能提升的单调性保障 192
17.5.2 模型推演长度 192
17.6 参考文献 193
第 18 章 离线强化学习 194
18.1 简介 194
18.2 批量限制 Q-learning算法 195
18.3 保守 Q-learning算法 197
18.4 CQL代码实践 199
18.5 小结 208
18.6 扩展阅读 208
18.7 参考文献 210
第 19 章 目标导向的强化学习 211
19.1 简介 211
19.2 问题定义 211
19.3 HER算法 212
19.4 HER代码实践 213
19.5 小结 221
19.6 参考文献 221
第 20 章 多智能体强化学习入门 222
20.1 简介 222
20.2 问题建模 223
20.3 多智能体强化学习的基本求解范式 223
20.4 IPPO算法 223
20.5 IPPO代码实践 224
20.6 小结 228
20.7 参考文献 229
第 21 章 多智能体强化学习进阶 230
21.1 简介 230
21.2 MADDPG算法 230
21.3 MADDPG代码实践 232
21.4 小结 240
21.5 参考文献 240
总结与展望 241
总结 241
展望:克服强化学习的落地挑战 241
中英文术语对照表与符号表 244
中英文术语对照表 244
符号表 246
《深度强化学习》
王树森
现任小红书基础模型团队负责人,从事搜索和推荐算法研发工作。从浙江大学获得计算机学士和博士学位,*读期间获得“微软学者”和
“百度奖学金”等多项荣誉。在加入小红书之前,曾任美国加州大学伯克利分校博士后、美国史蒂文斯理工学院助理教授、博导。在机器
学习、强化学习、数值计算、分布式计算等方向有多年科研经验,在计算机国际期刊和会议上发表30多篇论文。
在YouTube、B站开设“深度强化学习”“深度学习”“推荐系统”公开课(ID:Shusen Wang),全网视频播放量100万次。
黎彧君
华为诺亚方舟实验室*研究员,主要从事AutoML相关的研发工作。上海交通大学博士,研究方向为数值优化、强化学习;攻读博士学位期
间曾前往普林斯顿大学访问一年。共同翻译出版“花书”《深度学习》。
张志华
北京大学数学科学学院教授。此前先后执教于浙江大学和上海交通大学,任计算机科学教授。主要从事统计学、机器学习与计算机科学领域的
研究和教学。曾主讲“统计机器学习”“机器学习导论”“深度学习”“强化学习”,其课程视频广受欢迎。
《动手学强化学习》
张伟楠,上海交通大学副教授,博士生导师,ACM班机器学习、强化学习课程授课老师,吴文俊人工智能*青年奖、达摩院青橙奖得主,获
得中国科协“青年人才托举工程”支持。他的科研领域包括强化学习、数据挖掘、知识图谱、深度学习以及这些技术在推荐系统、搜索引擎、
文本分析等场景中的应用。他在国际会议和期刊上发表了100余篇相关领域的学术论文,于2016年在英国伦敦大学学院(UCL)计算机系获得
博士学位。
沈键,上海交通大学APEX实验室博士生,师从俞勇教授,研究方向为深度学习、强化学习和教育数据挖掘。在攻读博士期间,他以*作者身
份发表机器学习国际会议NeurIPS、AAAI论文,参与发表多篇机器学习和数据挖掘国际会议(包括ICML、IJCAI、SIGIR、KDD、AISTATS等)
论文,并担任多个国际会议和SCI学术期刊的审稿人。
俞勇,享受国务院特殊津贴*,教学名师,上海交通大学特聘教授,APEX实验室主任,上海交通大学ACM班*。俞勇教授曾获得“国家
高层次人才特殊支持计划”教学名师、“上海市教学名师奖”“*师德标兵”“上海交通大学校长奖”和“*受学生欢迎教师”等荣誉。他于
2018年创办了伯禹人工智能学院,在上海交通大学ACM班人工智能专业课程体系的基础上,对AI课程体系进行创新,致力于培养*的AI算法
工程师和研究员。
发货方式
自动:在特色服务中标有自动发货的商品,拍下后,源码类 软件类 商品会在订单详情页显示来自卖家的商品下载链接,点卡类 商品会在订单详情直接显示卡号密码。
手动:未标有自动发货的的商品,付款后,商品卖家会收到平台的手机短信、邮件提醒,卖家会尽快为您发货,如卖家长时间未发货,买家也可通过订单上的QQ或电话主动联系卖家。
退款说明
1、源码类:商品详情(含标题)与实际源码不一致的(例:描述PHP实际为ASP、描述的功能实际缺少、功能不能正常使用等)!有演示站时,与实际源码不一致的(但描述中有"不保证完全一样、可能有少许偏差"类似显著公告的除外);
2、营销推广类:未达到卖家描述标准的;
3、点卡软件类:所售点卡软件无法使用的;
3、发货:手动发货商品,在卖家未发货前就申请了退款的;
4、服务:卖家不提供承诺的售后服务的;(双方提前有商定和描述中有显著声明的除外)
5、其他:如商品或服务有质量方面的硬性常规问题的。未符合详情及卖家承诺的。
注:符合上述任一情况的,均支持退款,但卖家予以积极解决问题则除外。交易中的商品,卖家无法修改描述!
注意事项
1、在付款前,双方在QQ上所商定的内容,也是纠纷评判依据(商定与商品描述冲突时,以商定为准);
2、源码商品,同时有网站演示与商品详情图片演示,且网站演示与商品详情图片演示不一致的,默认按商品详情图片演示作为纠纷评判依据(卖家有特别声明或有额外商定的除外);
3、点卡软件商品,默认按商品详情作为纠纷评判依据(特别声明或有商定除外);
4、营销推广商品,默认按商品详情作为纠纷评判依据(特别声明或有商定除外);
5、在有"正当退款原因和依据"的前提下,写有"一旦售出,概不支持退款"等类似的声明,视为无效声明;
6、虽然交易产生纠纷的几率很小,卖家也肯定会给买家最完善的服务!但请买卖双方尽量保留如聊天记录这样的重要信息,以防产生纠纷时便于送码网快速介入处理。
送码声明
1、送码网作为第三方中介平台,依据双方交易合同(商品描述、交易前商定的内容)来保障交易的安全及买卖双方的权益;
2、非平台线上交易的项目,出现任何后果均与送码网无关;无论卖家以何理由要求线下交易的(如:要求买家支付宝转账付款的,微信转账付款的等),请联系管理举报,本平台将清退卖家处理。
正版 steam 原子之心 Atomic Heart 国区激活码 cd...
steam 英雄连3 国区激活码CDKEY PC游戏正版 Compan...
【骑砍中文站】PC 中文Steam 骑马与砍杀2 霸主 骑砍2 豪华版...
正版 steam 原子之心 Atomic Heart 国区激活码 cd...
M,日朋礼送男友老公创意实人用星人际机器蓝牙音箱走心情节生礼...
PC中文正版Steam 消逝的光芒2 消失的光芒2 Dying Lig...
Steam 女神异闻录5 皇家版 国区激活码CDKey秒发 Perso...
Steam怪物猎人崛起 曙光DLC 激活码cdkey 怪物猎人曙光 M...
steam 只狼 激活码CDKey 只狼影逝二度 Sekiro: Sh...
steam 女神异闻录5皇家版 国区激活码CDKey P5R 女神异闻...
Steam 街霸6 街头霸王6 国区激活码 Street Fighte...
猿编程机器人小学生编程礼包一二三四五六年级上下册编程创造营真人直播课小...
噬血代码 正版steam 支持蚂蚁花呗激活码CODE VEIN 国区激...
Steam 太吾绘卷 激活码CDKey The Scroll Of T...
D1 mini开发板 wifi NodeMcu Lua WIFI 基于...
沙城老窖传承8浓香型白酒纯粮食高粱酒480ml...
熊大叔陪少年读懂三国(全5册) 英雄生长/智者纵横/风云聚散/星汉灿烂...
新版中日交流标准日本语初级上册下册日语教材零基础入门自学教材新标日初级...
会声会影X5视频剪辑完全自学一本通(全彩)...
机器家用电动小型打浆机商用全自动多功能鱼丸肉泥肉丸做肉圆子碎...