• 交易规则(重要)

【官方旗舰店】动手学强化学习 机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门chatgpt书籍
本站优惠价
44.90
5.0折 原价:¥89.9
  • 销量
  • 卖家
  • 93+
  • 人民邮电出版社官方旗舰店

服务由"人民邮电出版社官方旗舰店"发货,并提供售后服务。

    担保交易,安全保证,有问题不解决可申请退款。购买前请询问清楚卖家,以卖家承诺为准! 自动发货商品,随时可以购买,付款后在订单详情下载,零等待。 不同会员等级尊享不同购买折扣。
天猫优惠券

天猫优惠券

已缴纳保证金

该商家已加入保障计划

【官方旗舰店】动手学强化学习 机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门chatgpt书籍

【官方旗舰店】动手学强化学习 机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门chatgpt书籍

【官方旗舰店】动手学强化学习 机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门chatgpt书籍

【官方旗舰店】动手学强化学习 机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门chatgpt书籍
目录

第 **分 强化学习基础
第 * 章 初探强化学习            2
*.* 简介                        2
*.2 什么是强化学习                 2
*.3 强化学习的环境                 4
*.4 强化学习的目标                 4
*.5 强化学习中的数据               5
*.6 强化学习的**性               6
*.7 小结                        6
第 2 章 多臂老虎机问题           7
2.* 简介                        7
2.2 问题介绍                      7
2.2.* 问题定义                   7
2.2.2 形式化描述                 8
2.2.3 累积懊悔                    8
2.2.4 估计期望奖励                8
2.3 探索与利用的平衡                *0
2.4  -贪婪算法                   **
2.5 上置信界算法                   *4
2.6 汤普森采样算法                 *6
2.7 小结                         *8
2.8 参考文献                      *8
第 3 章 马尔可夫决策过程         *9
3.* 简介                        *9
3.2 马尔可夫过程                   *9
3.2.* 随机过程                  *9
3.2.2 马尔可夫性质               *9
3.2.3 马尔可夫过程               20
3.3 马尔可夫奖励过程                2*
3.3.* 回报                       2*
3.3.2 *值函数                   22
3.4 马尔可夫决策过程               24
3.4.* 策略                       25
3.4.2 状态*值函数               25
3.4.3 动作*值函数               25
3.4.4 贝尔曼期望方程              25
3.5 蒙*卡洛方法                  28
3.6 占用度量                      3*
3.7 最*策略                     32
3.8 小结                        33
3.9 参考文献                     33
第 4 章 动态规划算法             34
4.* 简介                        34
4.2 悬崖漫步环境                  34
4.3 策略迭代算法                  36
4.3.* 策略评估                    36
4.3.2 策略提*                   36
4.3.3 策略迭代                   37
4.4 *值迭代算法                  40
4.5 冰湖环境                     42
4.6 小结                        45
4.7 扩展阅读:收敛性证明            45
4.7.* 策略迭代                  45
4.7.2 *值迭代                   45
4.8 参考文献                     46
第 5 章 时序差分算法           47
5.* 简介                       47
5.2 时序差分                     48
5.3 Sarsa 算法                   48
5.4 多步 Sarsa 算法               53
5.5 Q-learning 算法               56
5.6 小结                        60
5.7 扩展阅读:Q-learning 收敛性证明    6*
5.8 参考文献                     62
第 6 章 Dyna-Q 算法           63
6.* 简介                        63
6.2 Dyna-Q                    63
6.3 Dyna-Q 代码实践             64
6.4 小结                        69
6.5 参考文献                     69

第二*分 强化学习进*
第 7 章 DQN算法              72
7.* 简介                       72
7.2 车杆环境                     72
7.3 DQN                      73
7.3.* 经验回放                  74
7.3.2 目标网络                   74
7.4 DQN代码实践                75
7.5 以图像作为输入的DQN算法       79
7.6 小结                        80
7.7 参考文献                     80
第 8 章 DQN改进算法            8*
8.* 简介                        8*
8.2 Double DQN                 8*
8.3 Double DQN代码实践          82
8.4 Dueling DQN                88
8.5 Dueling DQN代码实践          90
8.6 小结                        93
8.7 扩展阅读:对Q值过*估计的定量分析    93
8.8 参考文献                     94
第 9 章 策略梯度算法           95
9.* 简介                       95
9.2 策略梯度                     95
9.3 REINFORCE                 96
9.4 REINFORCE代码实践          97
9.5 小结                        *00
9.6 扩展阅读:策略梯度证明          *00
9.7 参考文献                     *02
第 *0 章 Actor-Critic算法       *03
*0.* 简介                      *03
*0.2 Actor-Critic                *03
*0.3 Actor-Critic代码实践          *05
*0.4 小结                       *08
*0.5 参考文献                   *08
第 ** 章 TRPO算法            *09
**.* 简介                       *09
**.2 策略目标                    *09
**.3 近似求解                     ***
**.4 共轭梯度                   **2
**.5 线性搜索                    **2
**.6 广义*势估计                 **3
**.7 TRPO代码实践              **4
**.8 小结                      *22
**.9 参考文献                   *23
第 *2 章 PPO算法             *24
*2.* 简介                      *24
*2.2 PPO-惩罚                  *24
*2.3 PPO-截断                  *25
*2.4 PPO代码实践               *25
*2.5 小结                      *3*
*2.6 参考文献                   *32
第 *3 章 DDPG算法           *33
*3.* 简介                       *33
*3.2 DDPG                    *33
*3.3 DDPG代码实践               *35
*3.4 小结                      *40
*3.5 扩展阅读:确定性策略梯度定理的证明    *40
*3.6 参考文献                   *4*
第 *4 章 SAC算法             *42
*4.* 简介                      *42
*4.2 *大熵强化学习               *42
*4.3 Soft策略迭代                *43
*4.4 SAC                      *43
*4.5 SAC代码实践               *45
*4.6 小结                      *54
*4.7 参考文献                   *55

第三*分 强化学习前沿
第 *5 章 模仿学习              *58
*5.* 简介                       *58
*5.2 行为克隆                   *59
*5.3 生成对抗模仿学习             *59
*5.4 代码实践                   *60
*5.4.* 生成*家数据               *60
*5.4.2 行为克隆的代码实践         *63
*5.4.3 生成对抗模仿学习的代码实践        *65
*5.5 小结                      *67
*5.6 参考文献                   *68
第 *6 章 模型预测控制           *69
*6.* 简介                      *69
*6.2 打靶法                     *69
*6.2.* 随机打靶法                *70
*6.2.2 交叉熵方法                *70
*6.3 PETS算法                 *7*
*6.4 PETS算法实践              *72
*6.5 小结                      *79
*6.6 参考文献                   *79
第 *7 章 基于模型的策略*化      *80
*7.* 简介                      *80
*7.2 MBPO算法                 *80
*7.3 MBPO代码实践             *8*
*7.4 小结                      *92
*7.5 拓展阅读:MBPO理论分析      *92
*7.5.* 性能提*的单调性*障      *92
*7.5.2 模型推演长度              *92
*7.6 参考文献                   *93
第 *8 章 离线强化学习          *94
*8.* 简介                      *94
*8.2 批量限制 Q-learning算法       *95
*8.3 *守 Q-learning算法          *97
*8.4 CQL代码实践               *99
*8.5 小结                     208
*8.6 扩展阅读                  208
*8.7 参考文献                   2*0
第 *9 章 目标导向的强化学习       2**
*9.* 简介                      2**
*9.2 问题定义                   2**
*9.3 HER算法                  2*2
*9.4 HER代码实践               2*3
*9.5 小结                      22*
*9.6 参考文献                   22*
第 20 章 多智能体强化学习入门    222
20.* 简介                     222
20.2 问题建模                   223
20.3 多智能体强化学习的基本求解范式  223
20.4 IPPO算法                 223
20.5 IPPO代码实践              224
20.6 小结                      228
20.7 参考文献                   229
第 2* 章 多智能体强化学习进*    230
2*.* 简介                      230
2*.2 MADDPG算法             230
2*.3 MADDPG代码实践          232
2*.4 小结                     240
2*.5 参考文献                  240
总结与展望                  24*
总结                           24*
展望:克服强化学习的落地挑战          24*
中英文术语对照表与符号表         244
中英文术语对照表                  244
符号表                        246


作者介绍
张伟楠,上海交通大学副教授,博士生导师,ACM班机器学习、强化学习课程授课老师,吴文俊人工智能*秀青年奖、达摩院青橙奖得主,获得中*科协“青年人才托举工程”支持。他的科研*域*括强化学习、数据挖掘、知识图谱、深度学习以及这些技术在推荐系统、搜索引擎、文本分析等场景中的应用。他在*际会议和期刊上发表了*00余篇相关*域的学术论文,于20*6年在英*伦敦大学学院(UCL)计算机系获得博士学位。 沈键,上海交通大学APEX实验室博士生,师从俞勇教授,研究方向为深度学习、强化学习和教育数据挖掘。在攻读博士期间,他以第*作者身份发表机器学习*际会议NeurIPS、AAAI论文,参与发表多篇机器学习和数据挖掘*际会议(*括ICML、IJCAI、SIGIR、KDD、AISTATS等)论文,并担任多个*际会议和SCI学术期刊的审稿人。 俞勇,享受*务院*殊津贴*家,教学*,上海交通大学*聘教授,APEX实验室主任,上海交通大学ACM班*始人。俞勇教授曾获得“*家*层次人才*殊支持计划”教学*、“上海市教学*奖”“**师德标兵”“上海交通大学校长奖”和“最受学生欢迎教师”等荣誉。他于20*8年*办了伯禹人工智能学院,在上海交通大学ACM班人工智能*业课程体系的基础上,对AI课程体系进行*新,*力于培养*越的AI算法工程师和研究员。
  • 商品评价
  • 匿名
  • 内容是黑白的,所以代码也没有高亮之类的,代码很详细,主流算法都有,建议先通过其他的书学一些基础,遇到代码瓶颈的时候买这本书
  • 2023-08-11
好评
  • 匿名
  • 很好,包装完好,塑封膜都是完整的,书都全新。除了一本书的一个角被磕了,其他都很完美。话说我买了300块的书都没给配个纸箱。
  • 2023-08-11
好评
  • 匿名
  • 五星好评,非常好!想不到那么快就到了!
  • 2023-08-11
好评
  • 匿名
  • 印刷质量:网站是全彩的,印刷一般,有的不清楚。
  • 2023-08-11
好评
  • 匿名
  • 内容阅读感受:内容全面的。
  • 2023-08-11
好评
  • 匿名
  • 纸张质量不错,印刷清晰,包装完整,发货速度快
  • 2023-08-11
好评
  • 匿名
  • 搓手手万分期待的东西终于到手。内心那个炽热激动的劲儿涌上来止都止不住!!!觉得东西不错我就会给好评宝贝产品质量很好,是正品。和页面描述写的基本一致,卖家的客服服务态度从头到尾都很好,快递发货速度超快
  • 2023-08-11
好评
  • 匿名
  • 包装情况:普通平邮,普通塑封包装,运输无破损。 内容生动性:内容还是很充实很全面的,介绍了很多强化学习算法和代码实践模拟,每节不同算法介绍也都有给参考文献。 内容阅读感受:最后也给出了中英术语对照表,尽量避免翻译导致的误解。很详细很全面了,比一般点的教材都好。 色彩情况:封面色彩和照片相比失真有点严重? 印刷质量:除去封面,内容部分整体印刷质量很好。 纸张品质:2022年五月份刚刚出版第一版第一次印刷,但是又很快返厂更正重印了,我16号收到这书,这塑封却明显像是尘封好久的,而且印刷纸张封面效果没图片上那么好看。
  • 2023-08-11
好评
  • 匿名
  • 包装很好,三本书都八角尖尖,没有磕碰
  • 2023-08-11
好评
  • 匿名
  • 印刷不错,质量高,内容翔实,很满意,好评!
  • 2023-08-11
好评
  • 匿名
  • 内容阅读感受:相對於強化學習基礎教程一書,內容更加深入同埋更加數學,須花多些時間學習 。 内容生动性:與香港金融科技碩士的科技範疇非常- 致,彌補了碩士課程的不足,建議從事數據行業的各位應由這本書在手以便不時之需
  • 2023-08-11
好评
  • 匿名
  • 30天后追评細心閱讀後覺得非常之有用建議入手!
  • 2023-08-11
好评
  • 匿名
  • 书比想象的薄
  • 2023-08-11
好评
  • 匿名
  • 满意
  • 2023-08-11
好评
  • 匿名
  • 印刷质量很不错,内容的话也还行,都有代码示例,但我感觉还是看不太懂
  • 2023-08-11
好评
  • 匿名
  • 书籍质量很好,价格也不错。
  • 2023-08-11
好评
  • 匿名
  • 包装情况:非常好 内容生动性:内容生动 内容阅读感受:很受用 纸张品质:非常清新
  • 2023-08-11
好评
  • 匿名
  • 大促很划算,印刷很清楚,包装也不错
  • 2023-08-11
好评
  • 匿名
  • 好薄
  • 2023-08-11
好评
  • 匿名
  • 非常好非常好非常好非常好全新全新全新
  • 2023-08-11
好评
  • 匿名
  • 东西很好很喜欢
  • 2023-08-11
好评
  • 匿名
  • 默认好评,没有填写评论内容!
  • 2023-08-11
好评
  • 交易规则


  • 发货方式


  • 自动:在特色服务中标有自动发货的商品,拍下后,源码类 软件类 商品会在订单详情页显示来自卖家的商品下载链接,点卡类 商品会在订单详情直接显示卡号密码。

    手动:未标有自动发货的的商品,付款后,商品卖家会收到平台的手机短信、邮件提醒,卖家会尽快为您发货,如卖家长时间未发货,买家也可通过订单上的QQ或电话主动联系卖家。


  • 退款说明


  • 1、源码类:商品详情(含标题)与实际源码不一致的(例:描述PHP实际为ASP、描述的功能实际缺少、功能不能正常使用等)!有演示站时,与实际源码不一致的(但描述中有"不保证完全一样、可能有少许偏差"类似显著公告的除外);

  • 2、营销推广:未达到卖家描述标准的;

    3、点卡软件所售点卡软件无法使用的;

  • 3、发货:手动发货商品,在卖家未发货前就申请了退款的;

    4、服务:卖家不提供承诺的售后服务的;(双方提前有商定和描述中有显著声明的除外)

    5、其他:如商品或服务有质量方面的硬性常规问题的。未符合详情及卖家承诺的。

  • 注:符合上述任一情况的,均支持退款,但卖家予以积极解决问题则除外。交易中的商品,卖家无法修改描述!


  • 注意事项


  • 1、在付款前,双方在QQ上所商定的内容,也是纠纷评判依据(商定与商品描述冲突时,以商定为准);

    2、源码商品,同时有网站演示与商品详情图片演示,且网站演示与商品详情图片演示不一致的,默认按商品详情图片演示作为纠纷评判依据(卖家有特别声明或有额外商定的除外);

  • 3、点卡软件商品,默认按商品详情作为纠纷评判依据(特别声明或有商定除外);

  • 4、营销推广商品,默认按商品详情作为纠纷评判依据(特别声明或有商定除外);

    5、在有"正当退款原因和依据"的前提下,写有"一旦售出,概不支持退款"等类似的声明,视为无效声明;

    6、虽然交易产生纠纷的几率很小,卖家也肯定会给买家最完善的服务!但请买卖双方尽量保留如聊天记录这样的重要信息,以防产生纠纷时便于送码网快速介入处理。


  • 送码声明


  • 1、送码网作为第三方中介平台,依据双方交易合同(商品描述、交易前商定的内容)来保障交易的安全及买卖双方的权益;

  • 2、非平台线上交易的项目,出现任何后果均与送码网无关;无论卖家以何理由要求线下交易的(如:要求买家支付宝转账付款的,微信转账付款的等),请联系管理举报,本平台将清退卖家处理。


热门推荐
浏览记录