117.6
7.0折
原价¥168.0

收藏
强化学习(第2版)动手深度强化学习机器学习教程人工智能工业机器人入门专业理论学习实战机器视觉操作系统技术基础编程开发书
担保交易,安全保证,有问题不解决可申请退款。
商品属性
墨蓝图书专营店
墨蓝图书专营店
本商品由 墨蓝图书专营店 提供技术支持并发货!
进店逛逛

买家常见问题解答(必看)

商品详情
用户评价
交易规则

商品参数

商品基本信息,请以下列介绍为准
图书名称: 强化学习(第2版)
作者: (加)Richard S. Sutton(理查德·桑顿),(美)Andrew G. Barto(安德鲁·巴图)
定价: 168.00
ISBN号: 9787121295164
出版社: 电子工业出版社


  编辑**
《强化学习(第2版)》被业界公认为任何对人工智能领域感兴趣的人员的必读书。
《强化学习(第2版)》是被称为“强化学习教*”的Richard Sutton在强化学习领域的开创性、奠基性著作。自1998年第1版出版以来,一直是强化学习领域的经典导论性教材,培育了好几代强化学习领域的研究人员。
在第2版中,随着强化学习*来的蓬勃发展,作者补充了很多新的内容:人工神经网络、蒙特卡洛树搜索、平均收益*化……涵盖了当今*关键的核心算法和理论。不仅如此,作者还以真实世界的应用为例阐述了这些内容。


  内容简介
《强化学习(第2版)》作为强化学*思*的深度解剖之作,被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本*想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。《强化学习(第2版)》适合所有对强化学习感兴趣的读者阅读、收藏。


  目录
第1 章导论· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1 
1.1 强化学习· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1 
1.2 示例· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4 
1.3 强化学习要素· · · · · · · · · · · · · · · · · · · · · · · · · · · · 5 
1.4 局限性与适用范围· · · · · · · · · · · · · · · · · · · · · · · · · · 7 
1.5 扩展实例:井字棋· · · · · · · · · · · · · · · · · · · · · · · · · · 8 
1.6 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 12 
1.7 强化学习的早期历史· · · · · · · · · · · · · · · · · · · · · · · · · 13 
第I 部分表格型求解方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 23 
第2 章多臂赌*机· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 25 
2.1 一个k 臂赌*机问题· · · · · · · · · · · · · · · · · · · · · · · · 25 
2.2 动作-价值方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · 27 
2.3 10 臂测试平台· · · · · · · · · · · · · · · · · · · · · · · · · · · · 28 
2.4 增量式实现· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 30 
2.5 跟踪一个非平稳问题· · · · · · · · · · · · · · · · · · · · · · · · · 32 
2.6 乐观初始值· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 34 
2.7 基于置信度上界的动作选择· · · · · · · · · · · · · · · · · · · · · 35 
2.8 梯度赌*机算法· · · · · · · · · · · · · · · · · · · · · · · · · · · 37 
2.9 关联搜索(上下文相关的赌*机) · · · · · · · · · · · · · · · · · · 40 
2.10 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 41 
强化学习(第2 版) 
第3 章有限马尔可夫决策过程· · · · · · · · · · · · · · · · · · · · · · · · 45 
3.1 “智能体-环境”交互接口· · · · · · · · · · · · · · · · · · · · · · 45 
3.2 目标和收益· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 51 
3.3 回报和分幕· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 52 
3.4 分幕式和持续性任务的统一表示法· · · · · · · · · · · · · · · · · 54 
3.5 策略和价值函数· · · · · · · · · · · · · · · · · · · · · · · · · · · 55 
3.6 *优策略和*优价值函数· · · · · · · · · · · · · · · · · · · · · · 60 
3.7 *优性和近似算法· · · · · · · · · · · · · · · · · · · · · · · · · · 65 
3.8 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 66 
第4 章动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 71 
4.1 策略评估(预测) · · · · · · · · · · · · · · · · · · · · · · · · · · 72 
4.2 策略改进· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 75 
4.3 策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 78 
4.4 价值迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 80 
4.5 异步动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · 83 
4.6 广义策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · 84 
4.7 动态规划的效率· · · · · · · · · · · · · · · · · · · · · · · · · · · 85 
4.8 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 86 
第5 章蒙特卡洛方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 89 
5.1 蒙特卡洛预测· · · · · · · · · · · · · · · · · · · · · · · · · · · · 90 
5.2 动作价值的蒙特卡洛估计· · · · · · · · · · · · · · · · · · · · · · 94 
5.3 蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · · · · · · 95 
5.4 没有试探性出发假设的蒙特卡洛控制· · · · · · · · · · · · · · · · 98 
5.5 基于重要度采样的离轨策略· · · · · · · · · · · · · · · · · · · · · 101 
5.6 增量式实现· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 107 
5.7 离轨策略蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · 108 
5.8 ? 折扣敏感的重要度采样· · · · · · · · · · · · · · · · · · · · · · 110 
5.9 ? 每次决策型重要度采样· · · · · · · · · · · · · · · · · · · · · · 112 
5.10 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 113 
第6 章时序差分学习· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 117 
6.1 时序差分预测· · · · · · · · · · · · · · · · · · · · · · · · · · · · 117 
6.2 时序差分预测方法的优势· · · · · · · · · · · · · · · · · · · · · · 122 
6.3 TD(0) 的*优性· · · · · · · · · · · · · · · · · · · · · · · · · · · 124 
6.4 Sarsa:同轨策略下的时序差分控制· · · · · · · · · · · · · · · · · 127 
6.5 Q 学习:离轨策略下的时序差分控制· · · · · · · · · · · · · · · · 129 
6.6 期望Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 131 
6.7 *大化偏差与双学习· · · · · · · · · · · · · · · · · · · · · · · · · 133 
6.8 游戏、后位状态和其他特殊例子· · · · · · · · · · · · · · · · · · · 135 
6.9 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 136 
第7 章n 步自举法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 139 
7.1 n 步时序差分预测· · · · · · · · · · · · · · · · · · · · · · · · · · 140 
7.2 n 步Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 144 
7.3 n 步离轨策略学习· · · · · · · · · · · · · · · · · · · · · · · · · · 146 
7.4 ? 带控制变量的每次决策型方法· · · · · · · · · · · · · · · · · · · 148 
7.5 不需要使用重要度采样的离轨策略学习方法:n 步树回溯算法· · · 150 
7.6 ? 一个统一的算法:n 步Q()· · · · · · · · · · · · · · · · · · · · 153 
7.7 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 155 
第8 章基于表格型方法的规划和学习· · · · · · · · · · · · · · · · · · · 157 
8.1 模型和规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 157 
8.2 Dyna:集成在一起的规划、动作和学习· · · · · · · · · · · · · · · 159 
8.3 当模型错误的时候· · · · · · · · · · · · · · · · · · · · · · · · · · 164 
8.4 优先遍历· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 166 
8.5 期望更新与采样更新的对比· · · · · · · · · · · · · · · · · · · · · 170 
8.6 轨迹采样· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 173 
强化学习(第2 版)8.7 实时动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · 176 
8.8 决策时规划· · · · · · · · · · · 8


  作者简介
Sutton目前是阿尔伯塔大学计算机科学教授和人工智能研究员,Deepmind的杰出科学家,领导Deepmind在加拿大的人工智能实验室。专注于强化学习领域理论与实务研究,被称为“强化学*之父”。<BR>俞凯,思必驰联合创始人、首席科学家、上海交通大学计算机系研究员,译有《解析深度学习:语音识别实践》一书。


  

商品基本信息,请以下列介绍为准
图书名称: 强化学习(第2版)
作者: (加)Richard S. Sutton(理查德·桑顿),(美)Andrew G. Barto(安德鲁·巴图)
定价: 168.00
ISBN号: 9787121295164
出版社: 电子工业出版社


  编辑**
《强化学习(第2版)》被业界公认为任何对人工智能领域感兴趣的人员的必读书。
《强化学习(第2版)》是被称为“强化学习*父”的Richard Sutton在强化学习领域的开创性、奠基性著作。自1998年第1版出版以来,一直是强化学习领域的经典导论性教材,培育了好几代强化学习领域的研究人员。
在第2版中,随着强化学的蓬勃发展,作者补充了很多新的内容:人工神经网络、蒙特卡洛树搜索、平均收益*化……涵盖了当今*关键的核心算法和理论。不仅如此,作者还以真实世界的应用为例阐述了这些内容。


  内容简介
《强化学习(第2版)》作为强化学习思*的深度解剖之作,被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。《强化学习(第2版)》适合所有对强化学习感兴趣的读者阅读、收藏。


  目录
第1 章导论· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1 
1.1 强化学习· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1 
1.2 示例· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4 
1.3 强化学习要素· · · · · · · · · · · · · · · · · · · · · · · · · · · · 5 
1.4 局限性与适用范围· · · · · · · · · · · · · · · · · · · · · · · · · · 7 
1.5 扩展实例:井字棋· · · · · · · · · · · · · · · · · · · · · · · · · · 8 
1.6 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 12 
1.7 强化学习的早期历史· · · · · · · · · · · · · · · · · · · · · · · · · 13 
第I 部分表格型求解方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 23 
第2 章多臂赌*机· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 25 
2.1 一个k 臂*博机问题· · · · · · · · · · · · · · · · · · · · · · · · 25 
2.2 动作-价值方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · 27 
2.3 10 臂测试平台· · · · · · · · · · · · · · · · · · · · · · · · · · · · 28 
2.4 增量式实现· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 30 
2.5 跟踪一个非平稳问题· · · · · · · · · · · · · · · · · · · · · · · · · 32 
2.6 乐观初始值· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 34 
2.7 基于置信度上界的动作选择· · · · · · · · · · · · · · · · · · · · · 35 
2.8 梯度赌*机算法· · · · · · · · · · · · · · · · · · · · · · · · · · · 37 
2.9 关联搜索(上下文相关的赌博*) · · · · · · · · · · · · · · · · · · 40 
2.10 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 41 
强化学习(第2 版) 
第3 章有限马尔可夫决策过程· · · · · · · · · · · · · · · · · · · · · · · · 45 
3.1 “智能体-环境”交互接口· · · · · · · · · · · · · · · · · · · · · · 45 
3.2 目标和收益· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 51 
3.3 回报和分幕· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 52 
3.4 分幕式和持续性任务的统一表示法· · · · · · · · · · · · · · · · · 54 
3.5 策略和价值函数· · · · · · · · · · · · · · · · · · · · · · · · · · · 55 
3.6 *优策略和*优价值函数· · · · · · · · · · · · · · · · · · · · · · 60 
3.7 *优性和近似算法· · · · · · · · · · · · · · · · · · · · · · · · · · 65 
3.8 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 66 
第4 章动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 71 
4.1 策略评估(预测) · · · · · · · · · · · · · · · · · · · · · · · · · · 72 
4.2 策略改进· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 75 
4.3 策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 78 
4.4 价值迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 80 
4.5 异步动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · 83 
4.6 广义策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · 84 
4.7 动态规划的效率· · · · · · · · · · · · · · · · · · · · · · · · · · · 85 
4.8 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 86 
第5 章蒙特卡洛方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 89 
5.1 蒙特卡洛预测· · · · · · · · · · · · · · · · · · · · · · · · · · · · 90 
5.2 动作价值的蒙特卡洛估计· · · · · · · · · · · · · · · · · · · · · · 94 
5.3 蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · · · · · · 95 
5.4 没有试探性出发假设的蒙特卡洛控制· · · · · · · · · · · · · · · · 98 
5.5 基于重要度采样的离轨策略· · · · · · · · · · · · · · · · · · · · · 101 
5.6 增量式实现· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 107 
5.7 离轨策略蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · 108 
5.8 ? 折扣敏感的重要度采样· · · · · · · · · · · · · · · · · · · · · · 110 
5.9 ? 每次决策型重要度采样· · · · · · · · · · · · · · · · · · · · · · 112 
5.10 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 113 
第6 章时序差分学习· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 117 
6.1 时序差分预测· · · · · · · · · · · · · · · · · · · · · · · · · · · · 117 
6.2 时序差分预测方法的优势· · · · · · · · · · · · · · · · · · · · · · 122 
6.3 TD(0) 的*优性· · · · · · · · · · · · · · · · · · · · · · · · · · · 124 
6.4 Sarsa:同轨策略下的时序差分控制· · · · · · · · · · · · · · · · · 127 
6.5 Q 学习:离轨策略下的时序差分控制· · · · · · · · · · · · · · · · 129 
6.6 期望Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 131 
6.7 *大化偏差与双学习· · · · · · · · · · · · · · · · · · · · · · · · · 133 
6.8 游戏、后位状态和其他特殊例子· · · · · · · · · · · · · · · · · · · 135 
6.9 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 136 
第7 章n 步自举法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 139 
7.1 n 步时序差分预测· · · · · · · · · · · · · · · · · · · · · · · · · · 140 
7.2 n 步Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 144 
7.3 n 步离轨策略学习· · · · · · · · · · · · · · · · · · · · · · · · · · 146 
7.4 ? 带控制变量的每次决策型方法· · · · · · · · · · · · · · · · · · · 148 
7.5 不需要使用重要度采样的离轨策略学习方法:n 步树回溯算法· · · 150 
7.6 ? 一个统一的算法:n 步Q()· · · · · · · · · · · · · · · · · · · · 153 
7.7 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 155 
第8 章基于表格型方法的规划和学习· · · · · · · · · · · · · · · · · · · 157 
8.1 模型和规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 157 
8.2 Dyna:集成在一起的规划、动作和学习· · · · · · · · · · · · · · · 159 
8.3 当模型错误的时候· · · · · · · · · · · · · · · · · · · · · · · · · · 164 
8.4 优先遍历· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 166 
8.5 期望更新与采样更新的对比· · · · · · · · · · · · · · · · · · · · · 170 
8.6 轨迹采样· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 173 
强化学习(第2 版)8.7 实时动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · 176 
8.8 决策时规划· · · · · · · · · · · 8


  作者简介
Sutton目前是阿尔伯塔大学计算机科学教授和人工智能研究员,Deepmind的杰出科学家,领导Deepmind在加拿大的人工智能实验室。专注于强化学习领域理论与实务研究,被称为“强化学习之父”。<BR>俞凯,思必驰联合创始人、首席科学家、上海交通大学计算机系研究员,译有《解析深度学习:语音识别实践》一书。