【官方旗舰店】动手学强化学习机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门chatgpt书籍 - 送码网

分类

商品

商品

店铺

资讯

热门搜索 : WordPress 织梦企业官网小说源码 Discuz

服务器低至9.9￥/月

当前位置：首页 > 天猫商城

最后更新 2024-05-04
销量/好评 22 + 评论

交易规则（重要）
扫描二维码，分享到微信打开微信
使用"扫一扫"
再点击微信界面右上角三个点标志
分享到微信朋友和朋友圈。

【官方旗舰店】动手学强化学习机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门chatgpt书籍

本站优惠价

￥44.90

5.0折原价：~~￥89.9~~

销量
卖家
93+
人民邮电出版社官方旗舰店

+-

立即购买内部优惠

服务由"人民邮电出版社官方旗舰店"发货，并提供售后服务。

保障： 担保交易 自动发货 手机访问

担保交易，安全保证，有问题不解决可申请退款。购买前请询问清楚卖家，以卖家承诺为准！自动发货商品，随时可以购买，付款后在订单详情下载，零等待。不同会员等级尊享不同购买折扣。

更多数据

更多店铺数据

邮箱认证手机认证
身份认证
个人店铺

天猫优惠券

天猫优惠券

已缴纳保证金

该商家已加入保障计划

买家常见问题解答（必看）

商品详情
累计评价 22 +
商品问答
交易规则

【官方旗舰店】动手学强化学习机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门chatgpt书籍

【官方旗舰店】动手学强化学习机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门chatgpt书籍

【官方旗舰店】动手学强化学习机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门chatgpt书籍

【官方旗舰店】动手学强化学习机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门chatgpt书籍
目录

第 **分强化学习基础
第 * 章初探强化学习 2
*.* 简介 2
*.2 什么是强化学习 2
*.3 强化学习的环境 4
*.4 强化学习的目标 4
*.5 强化学习中的数据 5
*.6 强化学习的**性 6
*.7 小结 6
第 2 章多臂老虎机问题 7
2.* 简介 7
2.2 问题介绍 7
2.2.* 问题定义 7
2.2.2 形式化描述 8
2.2.3 累积懊悔 8
2.2.4 估计期望奖励 8
2.3 探索与利用的平衡 *0
2.4 -贪婪算法 **
2.5 上置信界算法 *4
2.6 汤普森采样算法 *6
2.7 小结 *8
2.8 参考文献 *8
第 3 章马尔可夫决策过程 *9
3.* 简介 *9
3.2 马尔可夫过程 *9
3.2.* 随机过程 *9
3.2.2 马尔可夫性质 *9
3.2.3 马尔可夫过程 20
3.3 马尔可夫奖励过程 2*
3.3.* 回报 2*
3.3.2 *值函数 22
3.4 马尔可夫决策过程 24
3.4.* 策略 25
3.4.2 状态*值函数 25
3.4.3 动作*值函数 25
3.4.4 贝尔曼期望方程 25
3.5 蒙*卡洛方法 28
3.6 占用度量 3*
3.7 最*策略 32
3.8 小结 33
3.9 参考文献 33
第 4 章动态规划算法 34
4.* 简介 34
4.2 悬崖漫步环境 34
4.3 策略迭代算法 36
4.3.* 策略评估 36
4.3.2 策略提* 36
4.3.3 策略迭代 37
4.4 *值迭代算法 40
4.5 冰湖环境 42
4.6 小结 45
4.7 扩展阅读：收敛性证明 45
4.7.* 策略迭代 45
4.7.2 *值迭代 45
4.8 参考文献 46
第 5 章时序差分算法 47
5.* 简介 47
5.2 时序差分 48
5.3 Sarsa 算法 48
5.4 多步 Sarsa 算法 53
5.5 Q-learning 算法 56
5.6 小结 60
5.7 扩展阅读：Q-learning 收敛性证明 6*
5.8 参考文献 62
第 6 章 Dyna-Q 算法 63
6.* 简介 63
6.2 Dyna-Q 63
6.3 Dyna-Q 代码实践 64
6.4 小结 69
6.5 参考文献 69

第二*分强化学习进*
第 7 章 DQN算法 72
7.* 简介 72
7.2 车杆环境 72
7.3 DQN 73
7.3.* 经验回放 74
7.3.2 目标网络 74
7.4 DQN代码实践 75
7.5 以图像作为输入的DQN算法 79
7.6 小结 80
7.7 参考文献 80
第 8 章 DQN改进算法 8*
8.* 简介 8*
8.2 Double DQN 8*
8.3 Double DQN代码实践 82
8.4 Dueling DQN 88
8.5 Dueling DQN代码实践 90
8.6 小结 93
8.7 扩展阅读：对Q值过*估计的定量分析 93
8.8 参考文献 94
第 9 章策略梯度算法 95
9.* 简介 95
9.2 策略梯度 95
9.3 REINFORCE 96
9.4 REINFORCE代码实践 97
9.5 小结 *00
9.6 扩展阅读：策略梯度证明 *00
9.7 参考文献 *02
第 *0 章 Actor-Critic算法 *03
*0.* 简介 *03
*0.2 Actor-Critic *03
*0.3 Actor-Critic代码实践 *05
*0.4 小结 *08
*0.5 参考文献 *08
第 ** 章 TRPO算法 *09
**.* 简介 *09
**.2 策略目标 *09
**.3 近似求解 ***
**.4 共轭梯度 **2
**.5 线性搜索 **2
**.6 广义*势估计 **3
**.7 TRPO代码实践 **4
**.8 小结 *22
**.9 参考文献 *23
第 *2 章 PPO算法 *24
*2.* 简介 *24
*2.2 PPO-惩罚 *24
*2.3 PPO-截断 *25
*2.4 PPO代码实践 *25
*2.5 小结 *3*
*2.6 参考文献 *32
第 *3 章 DDPG算法 *33
*3.* 简介 *33
*3.2 DDPG *33
*3.3 DDPG代码实践 *35
*3.4 小结 *40
*3.5 扩展阅读：确定性策略梯度定理的证明 *40
*3.6 参考文献 *4*
第 *4 章 SAC算法 *42
*4.* 简介 *42
*4.2 *大熵强化学习 *42
*4.3 Soft策略迭代 *43
*4.4 SAC *43
*4.5 SAC代码实践 *45
*4.6 小结 *54
*4.7 参考文献 *55

第三*分强化学习前沿
第 *5 章模仿学习 *58
*5.* 简介 *58
*5.2 行为克隆 *59
*5.3 生成对抗模仿学习 *59
*5.4 代码实践 *60
*5.4.* 生成*家数据 *60
*5.4.2 行为克隆的代码实践 *63
*5.4.3 生成对抗模仿学习的代码实践 *65
*5.5 小结 *67
*5.6 参考文献 *68
第 *6 章模型预测控制 *69
*6.* 简介 *69
*6.2 打靶法 *69
*6.2.* 随机打靶法 *70
*6.2.2 交叉熵方法 *70
*6.3 PETS算法 *7*
*6.4 PETS算法实践 *72
*6.5 小结 *79
*6.6 参考文献 *79
第 *7 章基于模型的策略*化 *80
*7.* 简介 *80
*7.2 MBPO算法 *80
*7.3 MBPO代码实践 *8*
*7.4 小结 *92
*7.5 拓展阅读：MBPO理论分析 *92
*7.5.* 性能提*的单调性*障 *92
*7.5.2 模型推演长度 *92
*7.6 参考文献 *93
第 *8 章离线强化学习 *94
*8.* 简介 *94
*8.2 批量限制 Q-learning算法 *95
*8.3 *守 Q-learning算法 *97
*8.4 CQL代码实践 *99
*8.5 小结 208
*8.6 扩展阅读 208
*8.7 参考文献 2*0
第 *9 章目标导向的强化学习 2**
*9.* 简介 2**
*9.2 问题定义 2**
*9.3 HER算法 2*2
*9.4 HER代码实践 2*3
*9.5 小结 22*
*9.6 参考文献 22*
第 20 章多智能体强化学习入门 222
20.* 简介 222
20.2 问题建模 223
20.3 多智能体强化学习的基本求解范式 223
20.4 IPPO算法 223
20.5 IPPO代码实践 224
20.6 小结 228
20.7 参考文献 229
第 2* 章多智能体强化学习进* 230
2*.* 简介 230
2*.2 MADDPG算法 230
2*.3 MADDPG代码实践 232
2*.4 小结 240
2*.5 参考文献 240
总结与展望 24*
总结 24*
展望：克服强化学习的落地挑战 24*
中英文术语对照表与符号表 244
中英文术语对照表 244
符号表 246

作者介绍
张伟楠，上海交通大学副教授，博士生导师，ACM班机器学习、强化学习课程授课老师，吴文俊人工智能*秀青年奖、达摩院青橙奖得主，获得中*科协“青年人才托举工程”支持。他的科研*域*括强化学习、数据挖掘、知识图谱、深度学习以及这些技术在推荐系统、搜索引擎、文本分析等场景中的应用。他在*际会议和期刊上发表了*00余篇相关*域的学术论文，于20*6年在英*伦敦大学学院（UCL）计算机系获得博士学位。沈键，上海交通大学APEX实验室博士生，师从俞勇教授，研究方向为深度学习、强化学习和教育数据挖掘。在攻读博士期间，他以第*作者身份发表机器学习*际会议NeurIPS、AAAI论文，参与发表多篇机器学习和数据挖掘*际会议（*括ICML、IJCAI、SIGIR、KDD、AISTATS等）论文，并担任多个*际会议和SCI学术期刊的审稿人。俞勇，享受*务院*殊津贴*家，教学*，上海交通大学*聘教授，APEX实验室主任，上海交通大学ACM班*始人。俞勇教授曾获得“*家*层次人才*殊支持计划”教学*、“上海市教学*奖”“**师德标兵”“上海交通大学校长奖”和“最受学生欢迎教师”等荣誉。他于20*8年*办了伯禹人工智能学院，在上海交通大学ACM班人工智能*业课程体系的基础上，对AI课程体系进行*新，*力于培养*越的AI算法工程师和研究员。

商品评价

描述相符
5
发货速度
5
服务态度
5
综合评分
5
写评价赚积分

匿名

内容是黑白的，所以代码也没有高亮之类的，代码很详细，主流算法都有，建议先通过其他的书学一些基础，遇到代码瓶颈的时候买这本书
2023-08-11

好评

匿名

很好，包装完好，塑封膜都是完整的，书都全新。除了一本书的一个角被磕了，其他都很完美。话说我买了300块的书都没给配个纸箱。
2023-08-11

好评

匿名

五星好评，非常好！想不到那么快就到了！
2023-08-11

好评

匿名

印刷质量：网站是全彩的，印刷一般，有的不清楚。
2023-08-11

好评

匿名

内容阅读感受：内容全面的。
2023-08-11

好评

匿名

纸张质量不错，印刷清晰，包装完整，发货速度快
2023-08-11

好评

匿名

搓手手万分期待的东西终于到手。内心那个炽热激动的劲儿涌上来止都止不住！！！觉得东西不错我就会给好评宝贝产品质量很好，是正品。和页面描述写的基本一致，卖家的客服服务态度从头到尾都很好，快递发货速度超快
2023-08-11

好评

匿名

包装情况：普通平邮，普通塑封包装，运输无破损。内容生动性：内容还是很充实很全面的，介绍了很多强化学习算法和代码实践模拟，每节不同算法介绍也都有给参考文献。内容阅读感受：最后也给出了中英术语对照表，尽量避免翻译导致的误解。很详细很全面了，比一般点的教材都好。色彩情况：封面色彩和照片相比失真有点严重？印刷质量：除去封面，内容部分整体印刷质量很好。纸张品质：2022年五月份刚刚出版第一版第一次印刷，但是又很快返厂更正重印了，我16号收到这书，这塑封却明显像是尘封好久的，而且印刷纸张封面效果没图片上那么好看。
2023-08-11

好评

匿名

包装很好，三本书都八角尖尖，没有磕碰
2023-08-11

好评

匿名

印刷不错，质量高，内容翔实，很满意，好评！
2023-08-11

好评

匿名

内容阅读感受：相對於強化學習基礎教程一書，內容更加深入同埋更加數學，須花多些時間學習。内容生动性：與香港金融科技碩士的科技範疇非常- 致，彌補了碩士課程的不足，建議從事數據行業的各位應由這本書在手以便不時之需
2023-08-11

好评

匿名

30天后追评細心閱讀後覺得非常之有用建議入手！
2023-08-11

好评

匿名

书比想象的薄
2023-08-11

好评

匿名

满意
2023-08-11

好评

匿名

印刷质量很不错，内容的话也还行，都有代码示例，但我感觉还是看不太懂
2023-08-11

好评

匿名

书籍质量很好，价格也不错。
2023-08-11

好评

匿名

包装情况：非常好内容生动性：内容生动内容阅读感受：很受用纸张品质：非常清新
2023-08-11

好评

匿名

大促很划算，印刷很清楚，包装也不错
2023-08-11

好评

匿名

好薄
2023-08-11

好评

匿名

非常好非常好非常好非常好全新全新全新
2023-08-11

好评

匿名

东西很好很喜欢
2023-08-11

好评

匿名

默认好评，没有填写评论内容！
2023-08-11

好评

商品问答

提交咨询问题共有0条问答 / 点击查看更多>>

交易规则

交易流程

发货方式
自动：在特色服务中标有自动发货的商品，拍下后，源码类软件类商品会在订单详情页显示来自卖家的商品下载链接，点卡类商品会在订单详情直接显示卡号密码。
手动：未标有自动发货的的商品，付款后，商品卖家会收到平台的手机短信、邮件提醒，卖家会尽快为您发货，如卖家长时间未发货，买家也可通过订单上的QQ或电话主动联系卖家。
退款说明
1、源码类：商品详情(含标题)与实际源码不一致的（例：描述PHP实际为ASP、描述的功能实际缺少、功能不能正常使用等）！有演示站时，与实际源码不一致的（但描述中有"不保证完全一样、可能有少许偏差"类似显著公告的除外）；
2、营销推广类：未达到卖家描述标准的；
3、点卡软件类：所售点卡软件无法使用的；
3、发货：手动发货商品，在卖家未发货前就申请了退款的；
4、服务：卖家不提供承诺的售后服务的；（双方提前有商定和描述中有显著声明的除外）
5、其他：如商品或服务有质量方面的硬性常规问题的。未符合详情及卖家承诺的。
注：符合上述任一情况的，均支持退款，但卖家予以积极解决问题则除外。交易中的商品，卖家无法修改描述！
注意事项
1、在付款前，双方在QQ上所商定的内容，也是纠纷评判依据（商定与商品描述冲突时，以商定为准）；
2、源码商品，同时有网站演示与商品详情图片演示，且网站演示与商品详情图片演示不一致的，默认按商品详情图片演示作为纠纷评判依据（卖家有特别声明或有额外商定的除外）；
3、点卡软件商品，默认按商品详情作为纠纷评判依据（特别声明或有商定除外）；
4、营销推广商品，默认按商品详情作为纠纷评判依据（特别声明或有商定除外）；
5、在有"正当退款原因和依据"的前提下，写有"一旦售出，概不支持退款"等类似的声明，视为无效声明；
6、虽然交易产生纠纷的几率很小，卖家也肯定会给买家最完善的服务！但请买卖双方尽量保留如聊天记录这样的重要信息，以防产生纠纷时便于送码网快速介入处理。
送码声明
1、送码网作为第三方中介平台，依据双方交易合同（商品描述、交易前商定的内容）来保障交易的安全及买卖双方的权益；
2、非平台线上交易的项目，出现任何后果均与送码网无关；无论卖家以何理由要求线下交易的（如：要求买家支付宝转账付款的，微信转账付款的等），请联系管理举报，本平台将清退卖家处理。

本店热销

正版 steam 原子之心 Atomic Heart 国区激活码 cdkey 正版中文游戏标准版/黄金版/终极版原子之星

正版 steam 原子之心 Atomic Heart 国区激活码 cd...

steam 英雄连3 国区激活码CDKEY PC游戏正版 Company of Heroes 3

steam 英雄连3 国区激活码CDKEY PC游戏正版 Compan...

M，日朋礼送男友老公创意实人用星人际机器蓝牙音箱走心情节生礼

M，日朋礼送男友老公创意实人用星人际机器蓝牙音箱走心情节生礼...

zippo之宝官方正品打火机古银双面贴章机器人煤油机送男友礼物女

zippo之宝官方正品打火机古银双面贴章机器人煤油机送男友礼物女...

秋季圆领卫衣套头男友风秋天长袖时尚潮流印花卡通机器派大星上衣

秋季圆领卫衣套头男友风秋天长袖时尚潮流印花卡通机器派大星上衣...

机器猫情侣衬衫小叮当落肩短袖衬衣男友外套大码潮流套装上衣薄款

机器猫情侣衬衫小叮当落肩短袖衬衣男友外套大码潮流套装上衣薄款...

PDPAOLA小机器人情侣手链女男生日礼物520送男友男士款闺蜜Robert

PDPAOLA小机器人情侣手链女男生日礼物520送男友男士款闺蜜Rob...

兼容乐高复仇者联盟4战争机器积木人仔钢铁侠救援机甲玩具WM723

兼容乐高复仇者联盟4战争机器积木人仔钢铁侠救援机甲玩具WM723...

兼容乐高复联4钢铁侠X0252灭霸MK50 MK1战争机器拼装积木人仔玩具

兼容乐高复联4钢铁侠X0252灭霸MK50 MK1战争机器拼装积木人仔...

XBOX ONE SERIES X|S 中文战争机器4与光环5守护者合计微软官方 25位数字兑换码

XBOX ONE SERIES X|S 中文战争机器4与光环5守护...

热门推荐

实用乐理刘小明杨晓音乐理论教程基本认识五线谱知识基础教材入门视唱练耳识...

实用乐理刘小明杨晓音乐理论教程基本认识五线谱知识基础教材入门视唱练耳识...

火影忍者晓组织手办系列羁绊和平小南佩恩GK大型模型二次元手办...

火影忍者晓组织手办系列羁绊和平小南佩恩GK大型模型二次元手办...

创乐博树莓派3代B+型 Raspberry Pi 3b+/3b 电脑开...

创乐博树莓派3代B+型 Raspberry Pi 3b+/3b 电脑开...

Uplay育碧刺客信条英灵殿激活码CDKEY Assassin'...

Uplay育碧刺客信条英灵殿激活码CDKEY Assassin'...

适用MCSK、水浸油位打印MDC04、等显示开发板应用水位-直接数据电...

适用MCSK、水浸油位打印MDC04、等显示开发板应用水位-直接数据电...

植物大战僵尸2科学漫画全4册人工智能机器人未来科技人造卫星卷 6-10...

植物大战僵尸2科学漫画全4册人工智能机器人未来科技人造卫星卷 6-10...

PC正版中文 steam游戏隔离 Quarantine 国区激活码 ...

PC正版中文 steam游戏隔离 Quarantine 国区激活码 ...

Steam 微光之镜国区激活码CDKey秒发 Glimmer in ...

Steam 微光之镜国区激活码CDKey秒发 Glimmer in ...

乐高机器人设计技巧创意小作品设计与搭建指导码高机器人教育游戏书...

乐高机器人设计技巧创意小作品设计与搭建指导码高机器人教育游戏书...

Tata他她串珠粗跟乐福鞋女平底小皮鞋低跟单鞋女春季新款W7E07AA...

Tata他她串珠粗跟乐福鞋女平底小皮鞋低跟单鞋女春季新款W7E07AA...

浏览记录

【亲测整站+移动端】女性门户网站带采集魅力女人网门户源码时尚新闻采集站站群必备

【亲测整站+移动端】女性门户网站带采集魅力女人网门户源码时尚新闻采...

3D同人漫画偿还方式系列小故事完结CG素材

3D同人漫画偿还方式系列小故事完结CG素材...

[独家xx受权+全开源]最新APP积分墙，仿米赚，学生赚，带PHP后端管理系统

[独家xx受权+全开源]最新APP积分墙，仿米赚，学生赚，带PHP后端...

潮玩西游游戏源码开发游戏模式养成游戏系统搭建开发定制服务

潮玩西游游戏源码开发游戏模式养成游戏系统搭建开发定制服务...

基于c#winform界面研究生信息管理系统源码CS架构系统VS项目代码

基于c#winform界面研究生信息管理系统源码CS架构系统VS项目代...

帝国cms内核仿《新趣头条》娱乐游戏资讯网站源码

帝国cms内核仿《新趣头条》娱乐游戏资讯网站源码...

【个人支付码商系统】正版受权---个人免签约支付系统二维码收款即时到账源码

【个人支付码商系统】正版受权---个人免签约支付系统二维码收款即时到账...

创意世界地图素材电子版矢量图可编辑CDR/AI/PPT设计模板

创意世界地图素材电子版矢量图可编辑CDR/AI/PPT设计模板...

PHP在线聊天系统源码在线客服

PHP在线聊天系统源码在线客服...

手机访问领取大礼包