正版强化学习第2版动手深度强化学习机器学习教程人工智能工业机器人入门专业理论学习实战机器视觉操作系统技术基础编程开发书 - 送码网

分类

商品

商品

店铺

资讯

热门搜索 : WordPress 织梦企业官网小说源码 Discuz

服务器低至9.9￥/月

当前位置：首页 > 天猫商城

最后更新 2023-12-06
销量/好评 0 + 评论

交易规则（重要）
扫描二维码，分享到微信打开微信
使用"扫一扫"
再点击微信界面右上角三个点标志
分享到微信朋友和朋友圈。

正版强化学习第2版动手深度强化学习机器学习教程人工智能工业机器人入门专业理论学习实战机器视觉操作系统技术基础编程开发书

本站优惠价

￥168.00

10.0折原价：~~￥168.00~~

销量
卖家
0+
北京庆春泽图书专营店

+-

立即购买内部优惠

服务由"北京庆春泽图书专营店"发货，并提供售后服务。

保障： 担保交易 自动发货 手机访问

担保交易，安全保证，有问题不解决可申请退款。购买前请询问清楚卖家，以卖家承诺为准！自动发货商品，随时可以购买，付款后在订单详情下载，零等待。不同会员等级尊享不同购买折扣。

更多数据

更多店铺数据

邮箱认证手机认证
身份认证
个人店铺

天猫优惠券

天猫优惠券

已缴纳保证金

该商家已加入保障计划

买家常见问题解答（必看）

商品详情
累计评价 0 +
商品问答
交易规则

商品参数

产品名称：强化学习(第2版)
ISBN编号: 9787121295164
书名: 强化学习(第2版)
作者: 俞凯等
出版时间: 2019年9月
定价: 168.00元
书名: 强化学习(第2版)
开本: 16开
是否是套装: 否
出版社名称: 电子工业出版社

内容介绍

《强化学习（第2版）》作为强化学习思想的深度解剖之作，被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发，深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法，并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。

《强化学习（第2版）》适合所有对强化学习感兴趣的读者阅读、收藏。

目录

第1章导论 1

1.1 强化学习 1

1.2 示例 4

1.3 强化学习要素 5

1.4 局限性与适用范围 7

1.5 扩展实例：井字棋 8

1.6 本章小结 12

1.7 强化学习的早期历史 13

第I部分表格型求解方法 23

第2章多臂赌博机 25

2.1 一个 k 臂赌博机问题 25

2.2 动作-价值方法 27

2.3 10 臂测试平台 28

2.4 增量式实现 30

2.5 跟踪一个非平稳问题 32

2.6 乐观初始值 34

2.7 基于置信度上界的动作选择 35

2.8 梯度赌博机算法 37

2.9 关联搜索 (上下文相关的赌博机) 40

2.10 本章小结 41

第3章有限马尔可夫决策过程 45

3.1 “智能体-环境”交互接口 45

3.2 目标和收益 51

3.3 回报和分幕 52

3.4 分幕式和持续性任务的统一表示法 54

3.5 策略和价值函数 55

3.6 *优策略和*优价值函数 60

3.7 *优性和近似算法 65

3.8 本章小结 66

第4章动态规划 71

4.1 策略评估 (预测) 72

4.2 策略改进 75

4.3 策略迭代 78

4.4 价值迭代 80

4.5 异步动态规划 83

4.6 广义策略迭代 84

4.7 动态规划的效率 85

4.8 本章小结 86

第5章蒙特卡洛方法 89

5.1 蒙特卡洛预测 90

5.2 动作价值的蒙特卡洛估计 94

5.3 蒙特卡洛控制 95

5.4 没有试探性出发假设的蒙特卡洛控制 98

5.5 基于重要度采样的离轨策略 101

5.6 增量式实现 107

5.7 离轨策略蒙特卡洛控制 108

5.8 ? 折扣敏感的重要度采样 110

5.9 ? 每次决策型重要度采样 112

5.10 本章小结 113

第 6 章时序差分学习 117

6.1 时序差分预测 117

6.2 时序差分预测方法的优势 122

6.3 TD(0) 的*优性 124

6.4 Sarsa：同轨策略下的时序差分控制 127

6.5 Q 学习：离轨策略下的时序差分控制 129

6.6 期望 Sarsa 131

6.7 *大化偏差与双学习 133

6.8 游戏、后位状态和其他特殊例子 135

6.9 本章小结 136

第7章 n 步自举法 139

7.1 n 步时序差分预测 140

7.2 n 步 Sarsa 144

7.3 n 步离轨策略学习 146

7.4 ? 带控制变量的每次决策型方法 148

7.5 不需要使用重要度采样的离轨策略学习方法：n 步树回溯算法 150

7.6 ? 一个统一的算法：n 步 Q(σ) 153

7.7 本章小结 155

第8章基于表格型方法的规划和学习 157

8.1 模型和规划 157

8.2 Dyna：集成在一起的规划、动作和学习 159

8.3 当模型错误的时候 164

8.4 优先遍历 166

8.5 期望更新与采样更新的对比 170

8.6 轨迹采样 173

8.7 实时动态规划 176

8.8 决策时规划 179

8.9 启发式搜索 180

8.10 预演算法 182

8.11 蒙特卡洛树搜索 184

8.12 本章小结 187

8.13 第I部分总结 188

第II部分表格型近似求解方法 193

第9章基于函数逼近的同轨策略预测 195

9.1 价值函数逼近 195

9.2 预测目标 (VE ) 196

9.3 随机梯度和半梯度方法 198

9.4 线性方法 202

9.5 线性方法的特征构造 207

9.5.1 多项式基 208

9.5.2 傅立叶基 209

9.5.3 粗编码 212

9.5.4 瓦片编码 214

9.5.5 径向基函数 218

9.6 手动选择步长参数 219

9.7 非线性函数逼近：人工神经网络 220

9.8 *小二乘时序差分 225

9.9 基于记忆的函数逼近 227

9.10 基于核函数的函数逼近 229

9.11 深入了解同轨策略学习：“兴趣”与“强调” 230

9.12 本章小结 232

第10章基于函数逼近的同轨策略控制 239

10.1 分幕式半梯度控制 239

10.2 半梯度 n 步 Sarsa 242

10.3 平均收益：持续性任务中的新的问题设定 245

10.4 弃用折扣 249

10.5 差分半梯度 n 步 Sarsa 251

10.6 本章小结 252

第11 章 ? 基于函数逼近的离轨策略方法 253

11.1 半梯度方法 254

11.2 离轨策略发散的例子 256

11.3 致命三要素 260

11.4 线性价值函数的几何性质 262

11.5 对贝尔曼误差做梯度下降 266

11.6 贝尔曼误差是不可学习的 270

11.7 梯度 TD 方法 274

11.8 强调 TD 方法 278

11.9 减小方差 279

11.10 本章小结 280

第12章资格迹 283

12.1 λ-回报 284

12.2 TD(λ) 287

12.3 n-步截断 λ- 回报方法 291

12.4 重做更新：在线 λ-回报算法 292

12.5 真实的在线 TD(λ) 294

12.6 ? 蒙特卡洛学习中的荷兰迹 296

12.7 Sarsa(λ) 298

12.8 变量 λ 和 γ 303

12.9 带有控制变量的离轨策略资格迹 304

12.10 从 Watkins 的 Q(λ) 到树回溯 TB(λ) 308

12.11 采用资格迹保障离轨策略方法的稳定性 310

12.12 实现中的问题 312

12.13 本章小结 312

第13章策略梯度方法 317

13.1 策略近似及其优势 318

13.2 策略梯度定理 320

13.3 REINFORCE：蒙特卡洛策略梯度 322

13.4 带有基线的 REINFORCE 325

13.5 “行动器-评判器”方法 327

13.6 持续性问题的策略梯度 329

13.7 针对连续动作的策略参数化方法 332

13.8 本章小结 333

第III部分表格型深入研究 337

第14章心理学 339

14.1 预测与控制 340

14.2 经典条件反射 341

14.2.1 阻塞与高级条件反射 342

14.2.2 Rescorla-Wagner 模型 344

14.2.3 TD 模型 347

14.2.4 TD 模型模拟 348

14.3 工具性条件反射 355

14.4 延迟强化 359

14.5 认知图 361

14.6 习惯行为与目标导向行为 362

14.7 本章小结 366

第15章神经科学 373

15.1 神经科学基础 374

15.2 收益信号、强化信号、价值和预测误差 375

15.3 收益预测误差假说 377

15.4 多巴胺 379

15.5 收益预测误差假说的实验支持 382

15.6 TD 误差/多巴胺对应 385

15.7 神经“行动器-评判器” 390

15.8 行动器与评判器学习规则 393

15.9 享乐主义神经元 397

15.10 集体强化学习 399

15.11 大脑中的基于模型的算法 402

15.12 成瘾 403

15.13 本章小结 404

第 16 章应用及案例分析 413

16.1 TD-Gammon 413

16.2 Samuel 的跳棋程序 418

16.3 Watson 的每日双倍投注 421

16.4 优化内存控制 424

16.5 人类级别的视频游戏 428

16.6 主宰围棋游戏 433

16.6.1 AlphaGo 436

16.6.2 AlphaGo Zero 439

16.7 个性化网络服务 442

16.8 热气流滑翔 446

第17章前沿技术 451

17.1 广义价值函数和辅助任务 451

17.2 基于选项理论的时序摘要 453

17.3 观测量和状态 456

17.4 设计收益信号 460

17.5 遗留问题 464

17.6 人工智能的未来 467

参考文献 473

商品评价

描述相符
5
发货速度
5
服务态度
5
综合评分
5
写评价赚积分

商品问答

提交咨询问题共有0条问答 / 点击查看更多>>

交易规则

交易流程

发货方式
自动：在特色服务中标有自动发货的商品，拍下后，源码类软件类商品会在订单详情页显示来自卖家的商品下载链接，点卡类商品会在订单详情直接显示卡号密码。
手动：未标有自动发货的的商品，付款后，商品卖家会收到平台的手机短信、邮件提醒，卖家会尽快为您发货，如卖家长时间未发货，买家也可通过订单上的QQ或电话主动联系卖家。
退款说明
1、源码类：商品详情(含标题)与实际源码不一致的（例：描述PHP实际为ASP、描述的功能实际缺少、功能不能正常使用等）！有演示站时，与实际源码不一致的（但描述中有"不保证完全一样、可能有少许偏差"类似显著公告的除外）；
2、营销推广类：未达到卖家描述标准的；
3、点卡软件类：所售点卡软件无法使用的；
3、发货：手动发货商品，在卖家未发货前就申请了退款的；
4、服务：卖家不提供承诺的售后服务的；（双方提前有商定和描述中有显著声明的除外）
5、其他：如商品或服务有质量方面的硬性常规问题的。未符合详情及卖家承诺的。
注：符合上述任一情况的，均支持退款，但卖家予以积极解决问题则除外。交易中的商品，卖家无法修改描述！
注意事项
1、在付款前，双方在QQ上所商定的内容，也是纠纷评判依据（商定与商品描述冲突时，以商定为准）；
2、源码商品，同时有网站演示与商品详情图片演示，且网站演示与商品详情图片演示不一致的，默认按商品详情图片演示作为纠纷评判依据（卖家有特别声明或有额外商定的除外）；
3、点卡软件商品，默认按商品详情作为纠纷评判依据（特别声明或有商定除外）；
4、营销推广商品，默认按商品详情作为纠纷评判依据（特别声明或有商定除外）；
5、在有"正当退款原因和依据"的前提下，写有"一旦售出，概不支持退款"等类似的声明，视为无效声明；
6、虽然交易产生纠纷的几率很小，卖家也肯定会给买家最完善的服务！但请买卖双方尽量保留如聊天记录这样的重要信息，以防产生纠纷时便于送码网快速介入处理。
送码声明
1、送码网作为第三方中介平台，依据双方交易合同（商品描述、交易前商定的内容）来保障交易的安全及买卖双方的权益；
2、非平台线上交易的项目，出现任何后果均与送码网无关；无论卖家以何理由要求线下交易的（如：要求买家支付宝转账付款的，微信转账付款的等），请联系管理举报，本平台将清退卖家处理。

本店热销

正版 steam 原子之心 Atomic Heart 国区激活码 cdkey 正版中文游戏标准版/黄金版/终极版原子之星

正版 steam 原子之心 Atomic Heart 国区激活码 cd...

steam 英雄连3 国区激活码CDKEY PC游戏正版 Company of Heroes 3

steam 英雄连3 国区激活码CDKEY PC游戏正版 Compan...

【骑砍中文站】PC 中文Steam 骑马与砍杀2 霸主骑砍2 豪华版正版 CDKEY/序列号/激活码

【骑砍中文站】PC 中文Steam 骑马与砍杀2 霸主骑砍2 豪华版...

正版 steam 原子之心 Atomic Heart 国区激活码 cdkey 正版中文游戏标准版/黄金版/终极版原子之星

正版 steam 原子之心 Atomic Heart 国区激活码 cd...

M，日朋礼送男友老公创意实人用星人际机器蓝牙音箱走心情节生礼

M，日朋礼送男友老公创意实人用星人际机器蓝牙音箱走心情节生礼...

PC中文正版Steam 消逝的光芒2 消失的光芒2 Dying Light 2 Stay Human 国区激活码cdkey标准豪华终极版

PC中文正版Steam 消逝的光芒2 消失的光芒2 Dying Lig...

Steam 女神异闻录5 皇家版国区激活码CDKey秒发 Persona 5: The Royal P5R steam PC正版游戏女神异闻录5R

Steam 女神异闻录5 皇家版国区激活码CDKey秒发 Perso...

Steam怪物猎人崛起曙光DLC 激活码cdkey 怪物猎人曙光 MONSTER HUNTER RISE: SUNBREAK PC游戏正版怪猎曙光

Steam怪物猎人崛起曙光DLC 激活码cdkey 怪物猎人曙光 M...

steam 只狼激活码CDKey 只狼影逝二度 Sekiro: Shadows Die Twice steam PC中文正版游戏年度版全球版秒发

steam 只狼激活码CDKey 只狼影逝二度 Sekiro: Sh...

steam 女神异闻录5皇家版国区激活码CDKey P5R 女神异闻录5S乱战合集Persona 5 Strikers Royal PC游戏正版

steam 女神异闻录5皇家版国区激活码CDKey P5R 女神异闻...

热门推荐

螺丝机供料器全自动手持式螺丝排列机送料机螺钉供给出料机器小型...

螺丝机供料器全自动手持式螺丝排列机送料机螺钉供给出料机器小型...

金考典激活码题库软件一级二级建造师造价师二建初中级会计经济师...

金考典激活码题库软件一级二级建造师造价师二建初中级会计经济师...

PC中文正版 steam平台国区游戏渔帆暗涌 DREDGE 标准...

PC中文正版 steam平台国区游戏渔帆暗涌 DREDGE 标准...

PC中文正版游戏欧卡2Steam激活码cdkey欧洲卡车模拟2地图包D...

PC中文正版游戏欧卡2Steam激活码cdkey欧洲卡车模拟2地图包D...

适用LPC54110双核开发板双核MCU 音频接口数字麦克风 SD...

适用LPC54110双核开发板双核MCU 音频接口数字麦克风 SD...

Steam游戏 PC中文正版大富翁11 激活码KEY 休闲策略玩...

Steam游戏 PC中文正版大富翁11 激活码KEY 休闲策略玩...

Raspberry Pi 树莓派4B专用外壳红白色 4B开发板保护外...

Raspberry Pi 树莓派4B专用外壳红白色 4B开发板保护外...

microbit v2主板套件BBC micro:bit开发板机器人p...

microbit v2主板套件BBC micro:bit开发板机器人p...

steam 完美音浪 hifirush Hi-Fi RUSH 正版激活...

steam 完美音浪 hifirush Hi-Fi RUSH 正版激活...

welcom电脑游戏手柄PC360电视版usb有线双人PS3摇杆ste...

welcom电脑游戏手柄PC360电视版usb有线双人PS3摇杆ste...

浏览记录

手机访问领取大礼包