深度强化学习：入门与实践指南深度强化学习从原理到算法探索面向实践掌握构建智能体聊天机器人实战项目凤凰新华书店旗舰店 - 送码网

分类

商品

商品

店铺

资讯

热门搜索 : WordPress 织梦企业官网小说源码 Discuz

服务器低至9.9￥/月

当前位置：首页 > 天猫商城

最后更新 2023-10-21
销量/好评 0 + 评论

交易规则（重要）
扫描二维码，分享到微信打开微信
使用"扫一扫"
再点击微信界面右上角三个点标志
分享到微信朋友和朋友圈。

深度强化学习：入门与实践指南深度强化学习从原理到算法探索面向实践掌握构建智能体聊天机器人实战项目凤凰新华书店旗舰店

本站优惠价

￥69.00

8.1折原价：~~￥85.00~~

销量
卖家
2+
凤凰新华书店旗舰店

+-

立即购买内部优惠

服务由"凤凰新华书店旗舰店"发货，并提供售后服务。

保障： 担保交易 自动发货 手机访问

担保交易，安全保证，有问题不解决可申请退款。购买前请询问清楚卖家，以卖家承诺为准！自动发货商品，随时可以购买，付款后在订单详情下载，零等待。不同会员等级尊享不同购买折扣。

更多数据

更多店铺数据

邮箱认证手机认证
身份认证
个人店铺

天猫优惠券

天猫优惠券

已缴纳保证金

该商家已加入保障计划

买家常见问题解答（必看）

商品详情
累计评价 0 +
商品问答
交易规则

深度强化学习：入门与实践指南深度强化学习从原理到算法探索面向实践掌握构建智能体聊天机器人实战项目凤凰新华书店旗舰店

深度强化学习：入门与实践指南深度强化学习从原理到算法探索面向实践掌握构建智能体聊天机器人实战项目凤凰新华书店旗舰店
内容介绍

强化学习是机器学习发展FC迅速的一个领域，由于其灵活性和通用性，可以应用在从玩游戏到优化复杂制造过程的许多实际情况。本书帮助读者迅速理解深度强化学习，并从原理到新近算法进行全面探索。关于强化学习的新资料很多，但多数过于专业和抽象，很不容易理解，并且从理解原理到可以实际解决问题之间还有巨大差距，而本书意在填补强化学习方法在实用性和结构化信息方面的不足，以帮助读者从整体上轻松理解深度强化学习。同时本书的另一个特点是面向实践，从简单到FC复杂，将每种方法实际应用在各种具体环境中，以帮助读者在实际研究和工作中应用深度强化学习来解决问题。

本书适合深度强化学习、机器学习、人工智能相关行业从业者、学习者阅读参考。

深度强化学习：入门与实践指南深度强化学习从原理到算法探索面向实践掌握构建智能体聊天机器人实战项目凤凰新华书店旗舰店

目录

目　录

原书前言

D1章　什么是强化学习 // 1

1.1　学习—监督、无监督和强化 // 1

1.2　RL形式和关系 // 3

1.2.1　奖励 // 4

1.2.2　智能体 // 5

1.2.3　环境 // 5

1.2.4　动作 // 6

1.2.5　观察 // 6

1.3　马尔可夫决策过程简介 // 8

1.3.1　马尔可夫过程 // 8

1.3.2　马尔可夫奖励过程 // 11

1.3.3　马尔可夫决策过程 // 13

1.4　本章小结 // 16

D2章　OpenAI Gym开源平台 // 17

2.1　智能体剖析 // 17

2.2　硬件和软件要求 // 19

2.3　OpenAI Gym API // 20

2.3.1　动作空间 // 21

2.3.2　观察空间 // 21

2.3.3　环境 // 22

2.3.4　创建环境 // 23

2.3.5　CartPole会话 // 25

2.4　随机CartPole智能体 // 26

2.5　额外的Gym功能—Wrapper和Monitor // 27

2.5.1　Wrapper // 28

2.5.2　Monitor // 30

2.6　本章小结 // 32

D3章　使用PyTorch进行深度学习 // 33

3.1　张量 // 33

3.1.1　创建张量 // 33

3.1.2　标量张量 // 35

3.1.3　张量操作 // 36

3.1.4　GPU张量 // 36

3.2　梯度 // 37

3.2.1　张量和梯度 // 38

3.3　NN构建块 // 40

3.4　定制层级 // 41

3.5　Z终的黏合剂—损失函数和优化器 // 43

3.5.1　损失函数 // 44

3.5.2　优化器 // 44

3.6　使用TensorBoard监控 // 45

3.6.1　TensorBoard简介 // 46

3.6.2　绘图工具 // 47

3.7　示例：在Atari图像上使用GAN // 48

3.8　本章小结 // 52

D4章　交叉熵方法 // 53

4.1　RL方法的分类 // 53

4.2　实践交叉熵 // 54

4.3　CartPole上的交叉熵方法 // 55

4.4　FrozenLake上的交叉熵方法 // 62

4.5　交叉熵方法的理论背景 // 67

4.6　本章小结 // 68

D5章　表格学习与Bellman方程 // 69

5.1　值、状态、Z优性 // 69

5.2　Z优的Bellman方程 // 70

5.3　动作的值 // 72

5.4　值迭代法 // 74

5.5　实践中的值迭代 // 75

5.6　FrozenLake中的Q-learning // 80

5.7　本章小结 // 82

D6章　深度Q网络 // 83

6.1　现实中的值迭代 // 83

6.2　表格式Q-learning // 84

6.3　深度Q-learning // 88

6.3.1　与环境的交互 // 89

6.3.2　SGD优化 // 90

6.3.3　步骤之间的相关性 // 90

6.3.4　马尔可夫性 // 90

6.3.5　DQN训练的Z终形式 // 91

6.4　Pong上的DQN // 91

6.4.1　封装 // 92

6.4.2　DQN模型 // 96

6.4.3　训练 // 98

6.4.4　运行与性能 // 105

6.4.5　动作中的模型 // 107

6.5　本章小结 // 109

D7章　DQN扩展 // 110

7.1　PyTorch Agent Net函数库 // 110

7.1.1　智能体 // 111

7.1.2　智能体的经验 // 112

7.1.3　经验缓冲区 // 113

7.1.4　Gym env封装 // 113

7.2　基本DQN // 113

7.3　N步DQN // 119

7.3.1　实现 // 121

7.4　双DQN // 123

7.4.1　实现 // 123

7.4.2　结果 // 126

7.5　有噪网络 // 127

7.5.1　实现 // 127

7.5.2　结果 // 130

7.6　优先级重放缓冲区 // 132

7.6.1　实现 // 133

7.6.2　结果 // 137

7.7　竞争DQN // 137

7.7.1　实现 // 138

7.7.2　结果 // 139

7.8　分类 // 140

7.8.1　实现 // 142

7.8.2　结果 // 148

7.9　结合所有 // 149

7.9.1　实现 // 150

7.9.2　结果 // 154

7.10　本章小结 // 155

参考文献 // 155

D8章　RL用于股票交易 // 156

8.1　贸易 // 156

8.2　数据 // 156

8.3　问题陈述和关键决策 // 157

8.4　交易环境 // 159

8.5　模型 // 165

8.6　训练代码 // 166

8.7　结果 // 167

8.7.1　前馈模型 // 167

8.7.2　卷积模型 // 170

8.8　要尝试的事 // 173

8.9　本章小结 // 173

D9章　策略梯度法：一种替代方案 // 174

9.1　值与策略 // 174

9.1.1　为什么是策略 // 174

9.1.2　策略表示 // 175

9.1.3　策略梯度 // 175

9.2　强化方法 // 176

9.2.1　CartPole的例子 // 177

9.2.2　结果 // 180

9.2.3　基于策略的方法与基于值的方法 // 181

9.3　强化问题 // 181

9.3.1　完整episode是必需的 // 182

9.3.2　高梯度方差 // 182

9.3.3　探索 // 182

9.3.4　样本之间的相关性 // 183

9.4　CartPole上的PG // 183

9.5　Pong上的PG // 187

9.6　本章小结 // 190

D10章　Actor-Critic方法 // 191

10.1　方差减少 // 191

10.2　CartPole方差 // 192

10.3　Actor-Critic // 194

10.4　Pong上的A2C // 196

10.5　Pong上的A2C的结果 // 201

10.6　调整超参数 // 202

10.6.1　学习率 // 203

10.6.2　熵beta // 203

10.6.3　环境数量 // 204

10.6.4　batch大小 // 204

10.7　本章小结 // 204

D11章　异步优势Actor-Critic方法 // 205

11.1　相关性和样本效率 // 205

11.2　在A2C中添加另一个A // 206

11.3　Python中的多处理 // 208

11.4　A3C—数据并行 // 208

11.5　A3C—梯度并行 // 214

11.6　本章小结 // 219

D12章　用 RL训练聊天机器人 // 220

12.1　聊天机器人概述 // 220

12.2　Deep NLP基础知识 // 221

12.2.1　RNN // 222

12.2.2　嵌入 // 223

12.2.3　编码器 -解码器 // 224

12.3　seq2seq训练 // 224

12.3.1　对数似然训练 // 224

12.3.2　双语评估替补（BLEU）得分 // 226

12.3.3　seq2seq中的RL // 226

12.3.4　自我评价序列训练 // 228

12.4　聊天机器人示例 // 228

12.4.1　示例结构 // 229

12.4.2　模块：cornell.py和data.py // 229

12.4.3　BLEU得分和utils.py // 230

12.4.4　模型 // 231

12.4.5　训练：交叉熵 // 236

12.4.6　执行训练 // 239

12.4.7　检查数据 // 241

12.4.8　测试训练的模型 // 243

12.4.9　训练：SCST // 244

12.4.10　运行SCST训练 // 250

12.4.11　结果 // 251

12.4.12　电报机器人 // 252

12.5　本章小结 // 254

D13章　Web浏览 // 255

13.1　网页浏览 // 255

13.1.1　浏览器自动化操作和强化学习 // 255

13.1.2　Mini World of Bits基准 // 256

13.2　OpenAI Universe // 258

13.2.1　安装 // 258

13.2.2　动作和观察 // 259

13.2.3　环境创建 // 259

13.2.4　MiniWoB稳定性 // 261

13.3　简单的点击方式 // 261

13.3.1　网格动作 // 262

13.3.2　示例概述 // 263

13.3.3　模型 // 264

13.3.4　训练代码 // 264

13.3.5　启动容器 // 269

13.3.6　训练过程 // 271

13.3.7　检查学到的策略 // 272

13.3.8　简单点击的问题 // 273

13.4　人工演示 // 275

13.4.1　记录演示 // 275

13.4.2　录制格式 // 277

13.4.3　使用演示进行训练 // 279

13.4.4　结果 // 280

13.4.5　TicTacToe问题 // 281

13.5　增加文本描述 // 283

13.6　要尝试的事情 // 288

13.7　本章小结 // 288

D14章　连续动作空间 // 289

14.1　为什么是连续空间 // 289

14.2　动作空间 // 289

14.3　环境 // 290

14.4　Actor-Critic（A2C）方法 // 292

14.4.1　实现 // 292

14.4.2　结果 // 295

14.4.3　使用模型和录制视频 // 296

14.5　确定性策略梯度 // 297

14.5.1　探索 // 298

14.5.2　实现 // 298

14.5.3　结果 // 302

14.5.4　录制视频 // 303

14.6　分布式策略梯度 // 304

14.6.1　架构 // 304

14.6.2　实现 // 304

14.6.3　结果 // 308

14.7　需要进一步尝试的事情 // 309

14.8　本章小结 // 309

D15章　信赖域 —TRPO、PPO和ACKTR // 310

15.1　引言 // 310

15.2　roboschool // 310

15.3　A2C基线 // 311

15.3.1　结果 // 313

15.3.2　录制视频 // 313

15.4　PPO // 313

15.4.1　实现 // 314

15.4.2　结果 // 317

15.5　TRPO // 318

15.5.1　实现 // 318

15.5.2　结果 // 319

15.6　使用ACKTR的A2C // 320

15.6.1　实现 // 320

15.6.2　结果 // 321

15.7　本章小结 // 321

D16章　RL中的黑盒优化 // 322

16.1　黑盒方法 // 322

16.2　进化策略 // 322

16.2.1　CartPole上的ES // 323

16.2.2　HalfCheetah上的ES // 328

16.3　遗传算法 // 332

16.3.1　CartPole上的GA // 333

16.3.2　GA调整 // 335

16.3.3　Cheetah上的GA // 336

16.4　本章小结 // 339

参考文献 // 339

D17章　 CY无模型 —想象力 // 340

17.1　基于模型与无模型 // 340

17.2　模型缺陷 // 341

17.3　想象力增强的智能体 // 342

17.3.1　环境模型 // 343

17.3.2　走步策略 // 343

17.3.3　走步编码器 // 344

17.3.4　论文结果 // 344

17.4　Atari Breakout上的I2A // 344

17.4.1　基线A2C智能体 // 344

17.4.2　环境模型训练 // 345

17.4.3　想象力智能体 // 347

17.5　实验结果 // 352

17.5.1　基线智能体 // 352

17.5.2　训练环境模型权重 // 353

17.5.3　使用I2A模型进行训练 // 354

17.6　本章小结 // 356

参考文献 // 356

D18章　AlphaGo Zero // 357

18.1　棋盘游戏 // 357

18.2　AlphaGo Zero方法 // 358

18.2.1　概述 // 358

18.2.2　MCTS // 359

18.2.3　自玩 // 360

18.2.4　训练和评估 // 360

18.3　Connect4机器人 // 361

18.3.1　游戏模型 // 361

18.3.2　实现MCTS // 363

18.3.3　模型 // 368

18.3.4　训练 // 369

18.3.5　测试和比较 // 370

18.4　Connect4结果 // 370

18.5　本章小结 // 372

参考文献 // 372

本书总结 // 373

商品评价

描述相符
5
发货速度
5
服务态度
5
综合评分
5
写评价赚积分

商品问答

提交咨询问题共有0条问答 / 点击查看更多>>

交易规则

交易流程

发货方式
自动：在特色服务中标有自动发货的商品，拍下后，源码类软件类商品会在订单详情页显示来自卖家的商品下载链接，点卡类商品会在订单详情直接显示卡号密码。
手动：未标有自动发货的的商品，付款后，商品卖家会收到平台的手机短信、邮件提醒，卖家会尽快为您发货，如卖家长时间未发货，买家也可通过订单上的QQ或电话主动联系卖家。
退款说明
1、源码类：商品详情(含标题)与实际源码不一致的（例：描述PHP实际为ASP、描述的功能实际缺少、功能不能正常使用等）！有演示站时，与实际源码不一致的（但描述中有"不保证完全一样、可能有少许偏差"类似显著公告的除外）；
2、营销推广类：未达到卖家描述标准的；
3、点卡软件类：所售点卡软件无法使用的；
3、发货：手动发货商品，在卖家未发货前就申请了退款的；
4、服务：卖家不提供承诺的售后服务的；（双方提前有商定和描述中有显著声明的除外）
5、其他：如商品或服务有质量方面的硬性常规问题的。未符合详情及卖家承诺的。
注：符合上述任一情况的，均支持退款，但卖家予以积极解决问题则除外。交易中的商品，卖家无法修改描述！
注意事项
1、在付款前，双方在QQ上所商定的内容，也是纠纷评判依据（商定与商品描述冲突时，以商定为准）；
2、源码商品，同时有网站演示与商品详情图片演示，且网站演示与商品详情图片演示不一致的，默认按商品详情图片演示作为纠纷评判依据（卖家有特别声明或有额外商定的除外）；
3、点卡软件商品，默认按商品详情作为纠纷评判依据（特别声明或有商定除外）；
4、营销推广商品，默认按商品详情作为纠纷评判依据（特别声明或有商定除外）；
5、在有"正当退款原因和依据"的前提下，写有"一旦售出，概不支持退款"等类似的声明，视为无效声明；
6、虽然交易产生纠纷的几率很小，卖家也肯定会给买家最完善的服务！但请买卖双方尽量保留如聊天记录这样的重要信息，以防产生纠纷时便于送码网快速介入处理。
送码声明
1、送码网作为第三方中介平台，依据双方交易合同（商品描述、交易前商定的内容）来保障交易的安全及买卖双方的权益；
2、非平台线上交易的项目，出现任何后果均与送码网无关；无论卖家以何理由要求线下交易的（如：要求买家支付宝转账付款的，微信转账付款的等），请联系管理举报，本平台将清退卖家处理。

本店热销

正版 steam 原子之心 Atomic Heart 国区激活码 cdkey 正版中文游戏标准版/黄金版/终极版原子之星

正版 steam 原子之心 Atomic Heart 国区激活码 cd...

steam 英雄连3 国区激活码CDKEY PC游戏正版 Company of Heroes 3

steam 英雄连3 国区激活码CDKEY PC游戏正版 Compan...

【骑砍中文站】PC 中文Steam 骑马与砍杀2 霸主骑砍2 豪华版正版 CDKEY/序列号/激活码

【骑砍中文站】PC 中文Steam 骑马与砍杀2 霸主骑砍2 豪华版...

正版 steam 原子之心 Atomic Heart 国区激活码 cdkey 正版中文游戏标准版/黄金版/终极版原子之星

正版 steam 原子之心 Atomic Heart 国区激活码 cd...

M，日朋礼送男友老公创意实人用星人际机器蓝牙音箱走心情节生礼

M，日朋礼送男友老公创意实人用星人际机器蓝牙音箱走心情节生礼...

PC中文正版Steam 消逝的光芒2 消失的光芒2 Dying Light 2 Stay Human 国区激活码cdkey标准豪华终极版

PC中文正版Steam 消逝的光芒2 消失的光芒2 Dying Lig...

Steam 女神异闻录5 皇家版国区激活码CDKey秒发 Persona 5: The Royal P5R steam PC正版游戏女神异闻录5R

Steam 女神异闻录5 皇家版国区激活码CDKey秒发 Perso...

Steam怪物猎人崛起曙光DLC 激活码cdkey 怪物猎人曙光 MONSTER HUNTER RISE: SUNBREAK PC游戏正版怪猎曙光

Steam怪物猎人崛起曙光DLC 激活码cdkey 怪物猎人曙光 M...

steam 只狼激活码CDKey 只狼影逝二度 Sekiro: Shadows Die Twice steam PC中文正版游戏年度版全球版秒发

steam 只狼激活码CDKey 只狼影逝二度 Sekiro: Sh...

steam 女神异闻录5皇家版国区激活码CDKey P5R 女神异闻录5S乱战合集Persona 5 Strikers Royal PC游戏正版

steam 女神异闻录5皇家版国区激活码CDKey P5R 女神异闻...

热门推荐

浏览记录

手机访问领取大礼包