44.9
5.0折
原价¥89.9

收藏
【官方旗舰店】动手学强化学习 机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门chatgpt书籍
担保交易,安全保证,有问题不解决可申请退款。
商品属性
人民邮电出版社官方旗舰店
人民邮电出版社官方旗舰店
本商品由 人民邮电出版社官方旗舰店 提供技术支持并发货!
进店逛逛

买家常见问题解答(必看)

商品详情
用户评价
交易规则

【官方旗舰店】动手学强化学习 机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门chatgpt书籍

【官方旗舰店】动手学强化学习 机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门chatgpt书籍

【官方旗舰店】动手学强化学习 机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门chatgpt书籍

【官方旗舰店】动手学强化学习 机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门chatgpt书籍
目录

第 **分 强化学习基础
第 * 章 初探强化学习            2
*.* 简介                        2
*.2 什么是强化学习                 2
*.3 强化学习的环境                 4
*.4 强化学习的目标                 4
*.5 强化学习中的数据               5
*.6 强化学习的**性               6
*.7 小结                        6
第 2 章 多臂老虎机问题           7
2.* 简介                        7
2.2 问题介绍                      7
2.2.* 问题定义                   7
2.2.2 形式化描述                 8
2.2.3 累积懊悔                    8
2.2.4 估计期望奖励                8
2.3 探索与利用的平衡                *0
2.4  -贪婪算法                   **
2.5 上置信界算法                   *4
2.6 汤普森采样算法                 *6
2.7 小结                         *8
2.8 参考文献                      *8
第 3 章 马尔可夫决策过程         *9
3.* 简介                        *9
3.2 马尔可夫过程                   *9
3.2.* 随机过程                  *9
3.2.2 马尔可夫性质               *9
3.2.3 马尔可夫过程               20
3.3 马尔可夫奖励过程                2*
3.3.* 回报                       2*
3.3.2 *值函数                   22
3.4 马尔可夫决策过程               24
3.4.* 策略                       25
3.4.2 状态*值函数               25
3.4.3 动作*值函数               25
3.4.4 贝尔曼期望方程              25
3.5 蒙*卡洛方法                  28
3.6 占用度量                      3*
3.7 最*策略                     32
3.8 小结                        33
3.9 参考文献                     33
第 4 章 动态规划算法             34
4.* 简介                        34
4.2 悬崖漫步环境                  34
4.3 策略迭代算法                  36
4.3.* 策略评估                    36
4.3.2 策略提*                   36
4.3.3 策略迭代                   37
4.4 *值迭代算法                  40
4.5 冰湖环境                     42
4.6 小结                        45
4.7 扩展阅读:收敛性证明            45
4.7.* 策略迭代                  45
4.7.2 *值迭代                   45
4.8 参考文献                     46
第 5 章 时序差分算法           47
5.* 简介                       47
5.2 时序差分                     48
5.3 Sarsa 算法                   48
5.4 多步 Sarsa 算法               53
5.5 Q-learning 算法               56
5.6 小结                        60
5.7 扩展阅读:Q-learning 收敛性证明    6*
5.8 参考文献                     62
第 6 章 Dyna-Q 算法           63
6.* 简介                        63
6.2 Dyna-Q                    63
6.3 Dyna-Q 代码实践             64
6.4 小结                        69
6.5 参考文献                     69

第二*分 强化学习进*
第 7 章 DQN算法              72
7.* 简介                       72
7.2 车杆环境                     72
7.3 DQN                      73
7.3.* 经验回放                  74
7.3.2 目标网络                   74
7.4 DQN代码实践                75
7.5 以图像作为输入的DQN算法       79
7.6 小结                        80
7.7 参考文献                     80
第 8 章 DQN改进算法            8*
8.* 简介                        8*
8.2 Double DQN                 8*
8.3 Double DQN代码实践          82
8.4 Dueling DQN                88
8.5 Dueling DQN代码实践          90
8.6 小结                        93
8.7 扩展阅读:对Q值过*估计的定量分析    93
8.8 参考文献                     94
第 9 章 策略梯度算法           95
9.* 简介                       95
9.2 策略梯度                     95
9.3 REINFORCE                 96
9.4 REINFORCE代码实践          97
9.5 小结                        *00
9.6 扩展阅读:策略梯度证明          *00
9.7 参考文献                     *02
第 *0 章 Actor-Critic算法       *03
*0.* 简介                      *03
*0.2 Actor-Critic                *03
*0.3 Actor-Critic代码实践          *05
*0.4 小结                       *08
*0.5 参考文献                   *08
第 ** 章 TRPO算法            *09
**.* 简介                       *09
**.2 策略目标                    *09
**.3 近似求解                     ***
**.4 共轭梯度                   **2
**.5 线性搜索                    **2
**.6 广义*势估计                 **3
**.7 TRPO代码实践              **4
**.8 小结                      *22
**.9 参考文献                   *23
第 *2 章 PPO算法             *24
*2.* 简介                      *24
*2.2 PPO-惩罚                  *24
*2.3 PPO-截断                  *25
*2.4 PPO代码实践               *25
*2.5 小结                      *3*
*2.6 参考文献                   *32
第 *3 章 DDPG算法           *33
*3.* 简介                       *33
*3.2 DDPG                    *33
*3.3 DDPG代码实践               *35
*3.4 小结                      *40
*3.5 扩展阅读:确定性策略梯度定理的证明    *40
*3.6 参考文献                   *4*
第 *4 章 SAC算法             *42
*4.* 简介                      *42
*4.2 *大熵强化学习               *42
*4.3 Soft策略迭代                *43
*4.4 SAC                      *43
*4.5 SAC代码实践               *45
*4.6 小结                      *54
*4.7 参考文献                   *55

第三*分 强化学习前沿
第 *5 章 模仿学习              *58
*5.* 简介                       *58
*5.2 行为克隆                   *59
*5.3 生成对抗模仿学习             *59
*5.4 代码实践                   *60
*5.4.* 生成*家数据               *60
*5.4.2 行为克隆的代码实践         *63
*5.4.3 生成对抗模仿学习的代码实践        *65
*5.5 小结                      *67
*5.6 参考文献                   *68
第 *6 章 模型预测控制           *69
*6.* 简介                      *69
*6.2 打靶法                     *69
*6.2.* 随机打靶法                *70
*6.2.2 交叉熵方法                *70
*6.3 PETS算法                 *7*
*6.4 PETS算法实践              *72
*6.5 小结                      *79
*6.6 参考文献                   *79
第 *7 章 基于模型的策略*化      *80
*7.* 简介                      *80
*7.2 MBPO算法                 *80
*7.3 MBPO代码实践             *8*
*7.4 小结                      *92
*7.5 拓展阅读:MBPO理论分析      *92
*7.5.* 性能提*的单调性*障      *92
*7.5.2 模型推演长度              *92
*7.6 参考文献                   *93
第 *8 章 离线强化学习          *94
*8.* 简介                      *94
*8.2 批量限制 Q-learning算法       *95
*8.3 *守 Q-learning算法          *97
*8.4 CQL代码实践               *99
*8.5 小结                     208
*8.6 扩展阅读                  208
*8.7 参考文献                   2*0
第 *9 章 目标导向的强化学习       2**
*9.* 简介                      2**
*9.2 问题定义                   2**
*9.3 HER算法                  2*2
*9.4 HER代码实践               2*3
*9.5 小结                      22*
*9.6 参考文献                   22*
第 20 章 多智能体强化学习入门    222
20.* 简介                     222
20.2 问题建模                   223
20.3 多智能体强化学习的基本求解范式  223
20.4 IPPO算法                 223
20.5 IPPO代码实践              224
20.6 小结                      228
20.7 参考文献                   229
第 2* 章 多智能体强化学习进*    230
2*.* 简介                      230
2*.2 MADDPG算法             230
2*.3 MADDPG代码实践          232
2*.4 小结                     240
2*.5 参考文献                  240
总结与展望                  24*
总结                           24*
展望:克服强化学习的落地挑战          24*
中英文术语对照表与符号表         244
中英文术语对照表                  244
符号表                        246


作者介绍
张伟楠,上海交通大学副教授,博士生导师,ACM班机器学习、强化学习课程授课老师,吴文俊人工智能*秀青年奖、达摩院青橙奖得主,获得中*科协“青年人才托举工程”支持。他的科研*域*括强化学习、数据挖掘、知识图谱、深度学习以及这些技术在推荐系统、搜索引擎、文本分析等场景中的应用。他在*际会议和期刊上发表了*00余篇相关*域的学术论文,于20*6年在英*伦敦大学学院(UCL)计算机系获得博士学位。 沈键,上海交通大学APEX实验室博士生,师从俞勇教授,研究方向为深度学习、强化学习和教育数据挖掘。在攻读博士期间,他以第*作者身份发表机器学习*际会议NeurIPS、AAAI论文,参与发表多篇机器学习和数据挖掘*际会议(*括ICML、IJCAI、SIGIR、KDD、AISTATS等)论文,并担任多个*际会议和SCI学术期刊的审稿人。 俞勇,享受*务院*殊津贴*家,教学*,上海交通大学*聘教授,APEX实验室主任,上海交通大学ACM班*始人。俞勇教授曾获得“*家*层次人才*殊支持计划”教学*、“上海市教学*奖”“**师德标兵”“上海交通大学校长奖”和“最受学生欢迎教师”等荣誉。他于20*8年*办了伯禹人工智能学院,在上海交通大学ACM班人工智能*业课程体系的基础上,对AI课程体系进行*新,*力于培养*越的AI算法工程师和研究员。

店铺

客服

购物车
领取优惠
立即购买