强化学习（第2版）动手深度强化学习机器学习教程人工智能工业机器人入门专业理论学习实战机器视觉操作系统技术基础编程开发书

发布

记录

分类

商品

店铺

资讯

热门搜索 : WordPress 织梦企业官网小说源码 Discuz

阿里云

虚拟主机

服务器低至9.9￥/月

当前位置：首页 > 天猫商城

收藏商品

最后更新 2024-03-10
销量/好评 0 + 评论

交易规则（重要）
扫描二维码，分享到微信打开微信
使用"扫一扫"
再点击微信界面右上角三个点标志
分享到微信朋友和朋友圈。

强化学习（第2版）动手深度强化学习机器学习教程人工智能工业机器人入门专业理论学习实战机器视觉操作系统技术基础编程开发书

本站优惠价

￥117.60

7.0折原价：~~￥168.00~~

销量
卖家
0+
墨蓝图书专营店

立即购买内部优惠领取优惠券

服务由"墨蓝图书专营店"发货，并提供售后服务。

保障： 担保交易 自动发货 手机访问

担保交易，安全保证，有问题不解决可申请退款。购买前请询问清楚卖家，以卖家承诺为准！自动发货商品，随时可以购买，付款后在订单详情下载，零等待。不同会员等级尊享不同购买折扣。

更多店铺数据

邮箱认证手机认证
身份认证
个人店铺

天猫优惠券

已缴纳保证金

该商家已加入保障计划

浏览店铺

领取优惠

买家常见问题解答（必看）

商品详情
累计评价 0 +
商品问答
交易规则

商品参数

商品基本信息,请以下列介绍为准
图书名称：	强化学习（第2版）
作者：	（加）Richard S. Sutton（理查德·桑顿），（美）Andrew G. Barto（安德鲁·巴图）
定价：	168.00
ISBN号：	9787121295164
出版社：	电子工业出版社

编辑**

《强化学习（第2版）》被业界公认为任何对人工智能领域感兴趣的人员的必读书。
《强化学习（第2版）》是被称为“强化学习教*”的Richard Sutton在强化学习领域的开创性、奠基性著作。自1998年第1版出版以来，一直是强化学习领域的经典导论性教材，培育了好几代强化学习领域的研究人员。
在第2版中，随着强化学习*来的蓬勃发展，作者补充了很多新的内容：人工神经网络、蒙特卡洛树搜索、平均收益*化……涵盖了当今*关键的核心算法和理论。不仅如此，作者还以真实世界的应用为例阐述了这些内容。

内容简介

《强化学习（第2版）》作为强化学*思*的深度解剖之作，被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本*想出发，深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法，并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。《强化学习（第2版）》适合所有对强化学习感兴趣的读者阅读、收藏。

第1 章导论· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
1.1 强化学习· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
1.2 示例· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4
1.3 强化学习要素· · · · · · · · · · · · · · · · · · · · · · · · · · · · 5
1.4 局限性与适用范围· · · · · · · · · · · · · · · · · · · · · · · · · · 7
1.5 扩展实例：井字棋· · · · · · · · · · · · · · · · · · · · · · · · · · 8
1.6 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 12
1.7 强化学习的早期历史· · · · · · · · · · · · · · · · · · · · · · · · · 13
第I 部分表格型求解方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 23
第2 章多臂赌*机· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 25
2.1 一个k 臂赌*机问题· · · · · · · · · · · · · · · · · · · · · · · · 25
2.2 动作-价值方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · 27
2.3 10 臂测试平台· · · · · · · · · · · · · · · · · · · · · · · · · · · · 28
2.4 增量式实现· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 30
2.5 跟踪一个非平稳问题· · · · · · · · · · · · · · · · · · · · · · · · · 32
2.6 乐观初始值· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 34
2.7 基于置信度上界的动作选择· · · · · · · · · · · · · · · · · · · · · 35
2.8 梯度赌*机算法· · · · · · · · · · · · · · · · · · · · · · · · · · · 37
2.9 关联搜索(上下文相关的赌*机) · · · · · · · · · · · · · · · · · · 40
2.10 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 41
强化学习(第2 版)
第3 章有限马尔可夫决策过程· · · · · · · · · · · · · · · · · · · · · · · · 45
3.1 “智能体-环境”交互接口· · · · · · · · · · · · · · · · · · · · · · 45
3.2 目标和收益· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 51
3.3 回报和分幕· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 52
3.4 分幕式和持续性任务的统一表示法· · · · · · · · · · · · · · · · · 54
3.5 策略和价值函数· · · · · · · · · · · · · · · · · · · · · · · · · · · 55
3.6 *优策略和*优价值函数· · · · · · · · · · · · · · · · · · · · · · 60
3.7 *优性和近似算法· · · · · · · · · · · · · · · · · · · · · · · · · · 65
3.8 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 66
第4 章动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 71
4.1 策略评估(预测) · · · · · · · · · · · · · · · · · · · · · · · · · · 72
4.2 策略改进· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 75
4.3 策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 78
4.4 价值迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 80
4.5 异步动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · 83
4.6 广义策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · 84
4.7 动态规划的效率· · · · · · · · · · · · · · · · · · · · · · · · · · · 85
4.8 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 86
第5 章蒙特卡洛方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 89
5.1 蒙特卡洛预测· · · · · · · · · · · · · · · · · · · · · · · · · · · · 90
5.2 动作价值的蒙特卡洛估计· · · · · · · · · · · · · · · · · · · · · · 94
5.3 蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · · · · · · 95
5.4 没有试探性出发假设的蒙特卡洛控制· · · · · · · · · · · · · · · · 98
5.5 基于重要度采样的离轨策略· · · · · · · · · · · · · · · · · · · · · 101
5.6 增量式实现· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 107
5.7 离轨策略蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · 108
5.8 ? 折扣敏感的重要度采样· · · · · · · · · · · · · · · · · · · · · · 110
5.9 ? 每次决策型重要度采样· · · · · · · · · · · · · · · · · · · · · · 112
5.10 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 113
第6 章时序差分学习· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 117
6.1 时序差分预测· · · · · · · · · · · · · · · · · · · · · · · · · · · · 117
6.2 时序差分预测方法的优势· · · · · · · · · · · · · · · · · · · · · · 122
6.3 TD(0) 的*优性· · · · · · · · · · · · · · · · · · · · · · · · · · · 124
6.4 Sarsa：同轨策略下的时序差分控制· · · · · · · · · · · · · · · · · 127
6.5 Q 学习：离轨策略下的时序差分控制· · · · · · · · · · · · · · · · 129
6.6 期望Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 131
6.7 *大化偏差与双学习· · · · · · · · · · · · · · · · · · · · · · · · · 133
6.8 游戏、后位状态和其他特殊例子· · · · · · · · · · · · · · · · · · · 135
6.9 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 136
第7 章n 步自举法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 139
7.1 n 步时序差分预测· · · · · · · · · · · · · · · · · · · · · · · · · · 140
7.2 n 步Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 144
7.3 n 步离轨策略学习· · · · · · · · · · · · · · · · · · · · · · · · · · 146
7.4 ? 带控制变量的每次决策型方法· · · · · · · · · · · · · · · · · · · 148
7.5 不需要使用重要度采样的离轨策略学习方法：n 步树回溯算法· · · 150
7.6 ? 一个统一的算法：n 步Q()· · · · · · · · · · · · · · · · · · · · 153
7.7 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 155
第8 章基于表格型方法的规划和学习· · · · · · · · · · · · · · · · · · · 157
8.1 模型和规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 157
8.2 Dyna：集成在一起的规划、动作和学习· · · · · · · · · · · · · · · 159
8.3 当模型错误的时候· · · · · · · · · · · · · · · · · · · · · · · · · · 164
8.4 优先遍历· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 166
8.5 期望更新与采样更新的对比· · · · · · · · · · · · · · · · · · · · · 170
8.6 轨迹采样· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 173
强化学习(第2 版)8.7 实时动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · 176
8.8 决策时规划· · · · · · · · · · · 8

作者简介

Sutton目前是阿尔伯塔大学计算机科学教授和人工智能研究员，Deepmind的杰出科学家，领导Deepmind在加拿大的人工智能实验室。专注于强化学习领域理论与实务研究，被称为“强化学*之父”。＜BR＞俞凯，思必驰联合创始人、首席科学家、上海交通大学计算机系研究员，译有《解析深度学习：语音识别实践》一书。

商品基本信息,请以下列介绍为准
图书名称：	强化学习（第2版）
作者：	（加）Richard S. Sutton（理查德·桑顿），（美）Andrew G. Barto（安德鲁·巴图）
定价：	168.00
ISBN号：	9787121295164
出版社：	电子工业出版社

编辑**

《强化学习（第2版）》被业界公认为任何对人工智能领域感兴趣的人员的必读书。
《强化学习（第2版）》是被称为“强化学习*父”的Richard Sutton在强化学习领域的开创性、奠基性著作。自1998年第1版出版以来，一直是强化学习领域的经典导论性教材，培育了好几代强化学习领域的研究人员。
在第2版中，随着强化学的蓬勃发展，作者补充了很多新的内容：人工神经网络、蒙特卡洛树搜索、平均收益*化……涵盖了当今*关键的核心算法和理论。不仅如此，作者还以真实世界的应用为例阐述了这些内容。

内容简介

《强化学习（第2版）》作为强化学习思*的深度解剖之作，被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发，深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法，并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。《强化学习（第2版）》适合所有对强化学习感兴趣的读者阅读、收藏。

第1 章导论· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
1.1 强化学习· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
1.2 示例· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4
1.3 强化学习要素· · · · · · · · · · · · · · · · · · · · · · · · · · · · 5
1.4 局限性与适用范围· · · · · · · · · · · · · · · · · · · · · · · · · · 7
1.5 扩展实例：井字棋· · · · · · · · · · · · · · · · · · · · · · · · · · 8
1.6 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 12
1.7 强化学习的早期历史· · · · · · · · · · · · · · · · · · · · · · · · · 13
第I 部分表格型求解方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 23
第2 章多臂赌*机· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 25
2.1 一个k 臂*博机问题· · · · · · · · · · · · · · · · · · · · · · · · 25
2.2 动作-价值方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · 27
2.3 10 臂测试平台· · · · · · · · · · · · · · · · · · · · · · · · · · · · 28
2.4 增量式实现· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 30
2.5 跟踪一个非平稳问题· · · · · · · · · · · · · · · · · · · · · · · · · 32
2.6 乐观初始值· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 34
2.7 基于置信度上界的动作选择· · · · · · · · · · · · · · · · · · · · · 35
2.8 梯度赌*机算法· · · · · · · · · · · · · · · · · · · · · · · · · · · 37
2.9 关联搜索(上下文相关的赌博*) · · · · · · · · · · · · · · · · · · 40
2.10 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 41
强化学习(第2 版)
第3 章有限马尔可夫决策过程· · · · · · · · · · · · · · · · · · · · · · · · 45
3.1 “智能体-环境”交互接口· · · · · · · · · · · · · · · · · · · · · · 45
3.2 目标和收益· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 51
3.3 回报和分幕· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 52
3.4 分幕式和持续性任务的统一表示法· · · · · · · · · · · · · · · · · 54
3.5 策略和价值函数· · · · · · · · · · · · · · · · · · · · · · · · · · · 55
3.6 *优策略和*优价值函数· · · · · · · · · · · · · · · · · · · · · · 60
3.7 *优性和近似算法· · · · · · · · · · · · · · · · · · · · · · · · · · 65
3.8 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 66
第4 章动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 71
4.1 策略评估(预测) · · · · · · · · · · · · · · · · · · · · · · · · · · 72
4.2 策略改进· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 75
4.3 策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 78
4.4 价值迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 80
4.5 异步动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · 83
4.6 广义策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · 84
4.7 动态规划的效率· · · · · · · · · · · · · · · · · · · · · · · · · · · 85
4.8 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 86
第5 章蒙特卡洛方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 89
5.1 蒙特卡洛预测· · · · · · · · · · · · · · · · · · · · · · · · · · · · 90
5.2 动作价值的蒙特卡洛估计· · · · · · · · · · · · · · · · · · · · · · 94
5.3 蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · · · · · · 95
5.4 没有试探性出发假设的蒙特卡洛控制· · · · · · · · · · · · · · · · 98
5.5 基于重要度采样的离轨策略· · · · · · · · · · · · · · · · · · · · · 101
5.6 增量式实现· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 107
5.7 离轨策略蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · 108
5.8 ? 折扣敏感的重要度采样· · · · · · · · · · · · · · · · · · · · · · 110
5.9 ? 每次决策型重要度采样· · · · · · · · · · · · · · · · · · · · · · 112
5.10 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 113
第6 章时序差分学习· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 117
6.1 时序差分预测· · · · · · · · · · · · · · · · · · · · · · · · · · · · 117
6.2 时序差分预测方法的优势· · · · · · · · · · · · · · · · · · · · · · 122
6.3 TD(0) 的*优性· · · · · · · · · · · · · · · · · · · · · · · · · · · 124
6.4 Sarsa：同轨策略下的时序差分控制· · · · · · · · · · · · · · · · · 127
6.5 Q 学习：离轨策略下的时序差分控制· · · · · · · · · · · · · · · · 129
6.6 期望Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 131
6.7 *大化偏差与双学习· · · · · · · · · · · · · · · · · · · · · · · · · 133
6.8 游戏、后位状态和其他特殊例子· · · · · · · · · · · · · · · · · · · 135
6.9 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 136
第7 章n 步自举法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 139
7.1 n 步时序差分预测· · · · · · · · · · · · · · · · · · · · · · · · · · 140
7.2 n 步Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 144
7.3 n 步离轨策略学习· · · · · · · · · · · · · · · · · · · · · · · · · · 146
7.4 ? 带控制变量的每次决策型方法· · · · · · · · · · · · · · · · · · · 148
7.5 不需要使用重要度采样的离轨策略学习方法：n 步树回溯算法· · · 150
7.6 ? 一个统一的算法：n 步Q()· · · · · · · · · · · · · · · · · · · · 153
7.7 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 155
第8 章基于表格型方法的规划和学习· · · · · · · · · · · · · · · · · · · 157
8.1 模型和规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 157
8.2 Dyna：集成在一起的规划、动作和学习· · · · · · · · · · · · · · · 159
8.3 当模型错误的时候· · · · · · · · · · · · · · · · · · · · · · · · · · 164
8.4 优先遍历· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 166
8.5 期望更新与采样更新的对比· · · · · · · · · · · · · · · · · · · · · 170
8.6 轨迹采样· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 173
强化学习(第2 版)8.7 实时动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · 176
8.8 决策时规划· · · · · · · · · · · 8

作者简介

Sutton目前是阿尔伯塔大学计算机科学教授和人工智能研究员，Deepmind的杰出科学家，领导Deepmind在加拿大的人工智能实验室。专注于强化学习领域理论与实务研究，被称为“强化学习之父”。＜BR＞俞凯，思必驰联合创始人、首席科学家、上海交通大学计算机系研究员，译有《解析深度学习：语音识别实践》一书。

商品评价

描述相符
5
发货速度
5
服务态度
5
综合评分
5
写评价赚积分

商品问答

提交咨询问题共有0条问答 / 点击查看更多>>

交易规则

交易流程

发货方式
自动：在特色服务中标有自动发货的商品，拍下后，源码类软件类商品会在订单详情页显示来自卖家的商品下载链接，点卡类商品会在订单详情直接显示卡号密码。
手动：未标有自动发货的的商品，付款后，商品卖家会收到平台的手机短信、邮件提醒，卖家会尽快为您发货，如卖家长时间未发货，买家也可通过订单上的QQ或电话主动联系卖家。
退款说明
1、源码类：商品详情(含标题)与实际源码不一致的（例：描述PHP实际为ASP、描述的功能实际缺少、功能不能正常使用等）！有演示站时，与实际源码不一致的（但描述中有"不保证完全一样、可能有少许偏差"类似显著公告的除外）；
2、营销推广类：未达到卖家描述标准的；
3、点卡软件类：所售点卡软件无法使用的；
3、发货：手动发货商品，在卖家未发货前就申请了退款的；
4、服务：卖家不提供承诺的售后服务的；（双方提前有商定和描述中有显著声明的除外）
5、其他：如商品或服务有质量方面的硬性常规问题的。未符合详情及卖家承诺的。
注：符合上述任一情况的，均支持退款，但卖家予以积极解决问题则除外。交易中的商品，卖家无法修改描述！
注意事项
1、在付款前，双方在QQ上所商定的内容，也是纠纷评判依据（商定与商品描述冲突时，以商定为准）；
2、源码商品，同时有网站演示与商品详情图片演示，且网站演示与商品详情图片演示不一致的，默认按商品详情图片演示作为纠纷评判依据（卖家有特别声明或有额外商定的除外）；
3、点卡软件商品，默认按商品详情作为纠纷评判依据（特别声明或有商定除外）；
4、营销推广商品，默认按商品详情作为纠纷评判依据（特别声明或有商定除外）；
5、在有"正当退款原因和依据"的前提下，写有"一旦售出，概不支持退款"等类似的声明，视为无效声明；
6、虽然交易产生纠纷的几率很小，卖家也肯定会给买家最完善的服务！但请买卖双方尽量保留如聊天记录这样的重要信息，以防产生纠纷时便于送码网快速介入处理。
送码声明
1、送码网作为第三方中介平台，依据双方交易合同（商品描述、交易前商定的内容）来保障交易的安全及买卖双方的权益；
2、非平台线上交易的项目，出现任何后果均与送码网无关；无论卖家以何理由要求线下交易的（如：要求买家支付宝转账付款的，微信转账付款的等），请联系管理举报，本平台将清退卖家处理。