44.9
5.0折
原价¥89.8

收藏
【官方旗舰店】用Python动手学强化学习 全彩印刷 人工智能机器深度学习python从入门到实战编程入门零基础自学计算机网络编程书籍
担保交易,安全保证,有问题不解决可申请退款。
商品属性
人民邮电出版社官方旗舰店
人民邮电出版社官方旗舰店
本商品由 人民邮电出版社官方旗舰店 提供技术支持并发货!
进店逛逛

买家常见问题解答(必看)

商品详情
用户评价
交易规则

【官方旗舰店】用Python动手学强化学习 全彩印刷 人工智能机器深度学习python从入门到实战编程入门零基础自学计算机网络编程书籍

【官方旗舰店】用Python动手学强化学习 全彩印刷 人工智能机器深度学习python从入门到实战编程入门零基础自学计算机网络编程书籍

【官方旗舰店】用Python动手学强化学习 全彩印刷 人工智能机器深度学习python从入门到实战编程入门零基础自学计算机网络编程书籍

【官方旗舰店】用Python动手学强化学习 全彩印刷 人工智能机器深度学习python从入门到实战编程入门零基础自学计算机网络编程书籍

【官方旗舰店】用Python动手学强化学习 全彩印刷 人工智能机器深度学习python从入门到实战编程入门零基础自学计算机网络编程书籍

【官方旗舰店】用Python动手学强化学习 全彩印刷 人工智能机器深度学习python从入门到实战编程入门零基础自学计算机网络编程书籍

【官方旗舰店】用Python动手学强化学习 全彩印刷 人工智能机器深度学习python从入门到实战编程入门零基础自学计算机网络编程书籍
目录
第 1章 了解强化学习 1
1.1 强化学习与各关键词之间的关系 1
1.2 强化学习的优点和弱点 8
1.3 强化学习的问题设定:马尔可夫决策过程 9

第 2章 强化学习的解法(1):根据环境制订计划 21
2.1 价值的定义和计算:贝尔曼方程 22
2.2 基于动态规划法的价值近似的学习:价值迭代 28
2.3 基于动态规划法的策略的学习:策略迭代 32
2.4 基于模型的方法和无模型的方法的区别 36

第3章 强化学习的解法(2):根据经验制订计划 39
3.1 平衡经验的积累与利用:Epsilon-Greedy 算法 41
3.2 是根据实际奖励还是预测来修正计划:蒙特卡洛方法和时序差分学习 46
3.3 用经验来更新价值近似还是策略:基于价值和基于策略 62

第4章 使用面向强化学习的神经网络 73
4.1 将神经网络应用于强化学习 74
4.2 通过含有参数的函数实现价值近似:价值函数近似 100
4.3 将深度学习应用于价值近似:DQN 109
4.4 通过含有参数的函数实现策略:策略梯度 121
4.5 将深度学习应用于策略:A2C 133
4.6 是价值近似还是策略呢 153

第5章 强化学习的弱点 157
5.1 获取样本的效率低 157
5.2 容易陷入局部*优行动和过拟合160
5.3 复现性差 163
5.4 以弱点为前提的对策 164

第6章 克服强化学习弱点的方法 169
6.1 应对采样效率低的方法:与基于模型的方法一起使用、表征学习 170
6.2 改善复现性的方法:进化策略 198
6.3 应对局部*优行动和过拟合的方法:模仿学习和逆强化学习 206

第7章 强化学习的应用领域 237
7.1 行动的*优化 239
7.2 学习的*优化 248
参考文献 252
作者介绍
[日]久保隆宏(作者) 任职于日本大型系统集成商TIS,具有丰富的机器学习研究和开发经验。论文共享网站站arXivTimes运营者,积**致力于技术普及,著有《TensorFlow应用指南》(合著)。 梁垿(译者) 硕士毕业于日本早稻田大学,研究方向为机器学习。目前在日本大型系统集成商TIS任自然语言处理工程师。热爱长跑与读书,喜欢科幻、蒸汽朋克、克苏鲁等题材的作品。 程引(译者) 工学博士学位,毕业于上海交通大学。目前在日本BizReach公司(Visional Group)AI部门任算法工程师。业务方向为推荐系统与自然语言处理,研究兴趣包括强化学习与自动控制。


店铺

客服

购物车
领取优惠
立即购买