目录
第 **分 强化学习基础
第 * 章 初探强化学习 2
*.* 简介 2
*.2 什么是强化学习 2
*.3 强化学习的环境 4
*.4 强化学习的目标 4
*.5 强化学习中的数据 5
*.6 强化学习的**性 6
*.7 小结 6
第 2 章 多臂老虎机问题 7
2.* 简介 7
2.2 问题介绍 7
2.2.* 问题定义 7
2.2.2 形式化描述 8
2.2.3 累积懊悔 8
2.2.4 估计期望奖励 8
2.3 探索与利用的平衡 *0
2.4 -贪婪算法 **
2.5 上置信界算法 *4
2.6 汤普森采样算法 *6
2.7 小结 *8
2.8 参考文献 *8
第 3 章 马尔可夫决策过程 *9
3.* 简介 *9
3.2 马尔可夫过程 *9
3.2.* 随机过程 *9
3.2.2 马尔可夫性质 *9
3.2.3 马尔可夫过程 20
3.3 马尔可夫奖励过程 2*
3.3.* 回报 2*
3.3.2 *值函数 22
3.4 马尔可夫决策过程 24
3.4.* 策略 25
3.4.2 状态*值函数 25
3.4.3 动作*值函数 25
3.4.4 贝尔曼期望方程 25
3.5 蒙*卡洛方法 28
3.6 占用度量 3*
3.7 最*策略 32
3.8 小结 33
3.9 参考文献 33
第 4 章 动态规划算法 34
4.* 简介 34
4.2 悬崖漫步环境 34
4.3 策略迭代算法 36
4.3.* 策略评估 36
4.3.2 策略提* 36
4.3.3 策略迭代 37
4.4 *值迭代算法 40
4.5 冰湖环境 42
4.6 小结 45
4.7 扩展阅读:收敛性证明 45
4.7.* 策略迭代 45
4.7.2 *值迭代 45
4.8 参考文献 46
第 5 章 时序差分算法 47
5.* 简介 47
5.2 时序差分 48
5.3 Sarsa 算法 48
5.4 多步 Sarsa 算法 53
5.5 Q-learning 算法 56
5.6 小结 60
5.7 扩展阅读:Q-learning 收敛性证明 6*
5.8 参考文献 62
第 6 章 Dyna-Q 算法 63
6.* 简介 63
6.2 Dyna-Q 63
6.3 Dyna-Q 代码实践 64
6.4 小结 69
6.5 参考文献 69
第二*分 强化学习进*
第 7 章 DQN算法 72
7.* 简介 72
7.2 车杆环境 72
7.3 DQN 73
7.3.* 经验回放 74
7.3.2 目标网络 74
7.4 DQN代码实践 75
7.5 以图像作为输入的DQN算法 79
7.6 小结 80
7.7 参考文献 80
第 8 章 DQN改进算法 8*
8.* 简介 8*
8.2 Double DQN 8*
8.3 Double DQN代码实践 82
8.4 Dueling DQN 88
8.5 Dueling DQN代码实践 90
8.6 小结 93
8.7 扩展阅读:对Q值过*估计的定量分析 93
8.8 参考文献 94
第 9 章 策略梯度算法 95
9.* 简介 95
9.2 策略梯度 95
9.3 REINFORCE 96
9.4 REINFORCE代码实践 97
9.5 小结 *00
9.6 扩展阅读:策略梯度证明 *00
9.7 参考文献 *02
第 *0 章 Actor-Critic算法 *03
*0.* 简介 *03
*0.2 Actor-Critic *03
*0.3 Actor-Critic代码实践 *05
*0.4 小结 *08
*0.5 参考文献 *08
第 ** 章 TRPO算法 *09
**.* 简介 *09
**.2 策略目标 *09
**.3 近似求解 ***
**.4 共轭梯度 **2
**.5 线性搜索 **2
**.6 广义*势估计 **3
**.7 TRPO代码实践 **4
**.8 小结 *22
**.9 参考文献 *23
第 *2 章 PPO算法 *24
*2.* 简介 *24
*2.2 PPO-惩罚 *24
*2.3 PPO-截断 *25
*2.4 PPO代码实践 *25
*2.5 小结 *3*
*2.6 参考文献 *32
第 *3 章 DDPG算法 *33
*3.* 简介 *33
*3.2 DDPG *33
*3.3 DDPG代码实践 *35
*3.4 小结 *40
*3.5 扩展阅读:确定性策略梯度定理的证明 *40
*3.6 参考文献 *4*
第 *4 章 SAC算法 *42
*4.* 简介 *42
*4.2 *大熵强化学习 *42
*4.3 Soft策略迭代 *43
*4.4 SAC *43
*4.5 SAC代码实践 *45
*4.6 小结 *54
*4.7 参考文献 *55
第三*分 强化学习前沿
第 *5 章 模仿学习 *58
*5.* 简介 *58
*5.2 行为克隆 *59
*5.3 生成对抗模仿学习 *59
*5.4 代码实践 *60
*5.4.* 生成*家数据 *60
*5.4.2 行为克隆的代码实践 *63
*5.4.3 生成对抗模仿学习的代码实践 *65
*5.5 小结 *67
*5.6 参考文献 *68
第 *6 章 模型预测控制 *69
*6.* 简介 *69
*6.2 打靶法 *69
*6.2.* 随机打靶法 *70
*6.2.2 交叉熵方法 *70
*6.3 PETS算法 *7*
*6.4 PETS算法实践 *72
*6.5 小结 *79
*6.6 参考文献 *79
第 *7 章 基于模型的策略*化 *80
*7.* 简介 *80
*7.2 MBPO算法 *80
*7.3 MBPO代码实践 *8*
*7.4 小结 *92
*7.5 拓展阅读:MBPO理论分析 *92
*7.5.* 性能提*的单调性*障 *92
*7.5.2 模型推演长度 *92
*7.6 参考文献 *93
第 *8 章 离线强化学习 *94
*8.* 简介 *94
*8.2 批量限制 Q-learning算法 *95
*8.3 *守 Q-learning算法 *97
*8.4 CQL代码实践 *99
*8.5 小结 208
*8.6 扩展阅读 208
*8.7 参考文献 2*0
第 *9 章 目标导向的强化学习 2**
*9.* 简介 2**
*9.2 问题定义 2**
*9.3 HER算法 2*2
*9.4 HER代码实践 2*3
*9.5 小结 22*
*9.6 参考文献 22*
第 20 章 多智能体强化学习入门 222
20.* 简介 222
20.2 问题建模 223
20.3 多智能体强化学习的基本求解范式 223
20.4 IPPO算法 223
20.5 IPPO代码实践 224
20.6 小结 228
20.7 参考文献 229
第 2* 章 多智能体强化学习进* 230
2*.* 简介 230
2*.2 MADDPG算法 230
2*.3 MADDPG代码实践 232
2*.4 小结 240
2*.5 参考文献 240
总结与展望 24*
总结 24*
展望:克服强化学习的落地挑战 24*
中英文术语对照表与符号表 244
中英文术语对照表 244
符号表 246
发货方式
自动:在特色服务中标有自动发货的商品,拍下后,源码类 软件类 商品会在订单详情页显示来自卖家的商品下载链接,点卡类 商品会在订单详情直接显示卡号密码。
手动:未标有自动发货的的商品,付款后,商品卖家会收到平台的手机短信、邮件提醒,卖家会尽快为您发货,如卖家长时间未发货,买家也可通过订单上的QQ或电话主动联系卖家。
退款说明
1、源码类:商品详情(含标题)与实际源码不一致的(例:描述PHP实际为ASP、描述的功能实际缺少、功能不能正常使用等)!有演示站时,与实际源码不一致的(但描述中有"不保证完全一样、可能有少许偏差"类似显著公告的除外);
2、营销推广类:未达到卖家描述标准的;
3、点卡软件类:所售点卡软件无法使用的;
3、发货:手动发货商品,在卖家未发货前就申请了退款的;
4、服务:卖家不提供承诺的售后服务的;(双方提前有商定和描述中有显著声明的除外)
5、其他:如商品或服务有质量方面的硬性常规问题的。未符合详情及卖家承诺的。
注:符合上述任一情况的,均支持退款,但卖家予以积极解决问题则除外。交易中的商品,卖家无法修改描述!
注意事项
1、在付款前,双方在QQ上所商定的内容,也是纠纷评判依据(商定与商品描述冲突时,以商定为准);
2、源码商品,同时有网站演示与商品详情图片演示,且网站演示与商品详情图片演示不一致的,默认按商品详情图片演示作为纠纷评判依据(卖家有特别声明或有额外商定的除外);
3、点卡软件商品,默认按商品详情作为纠纷评判依据(特别声明或有商定除外);
4、营销推广商品,默认按商品详情作为纠纷评判依据(特别声明或有商定除外);
5、在有"正当退款原因和依据"的前提下,写有"一旦售出,概不支持退款"等类似的声明,视为无效声明;
6、虽然交易产生纠纷的几率很小,卖家也肯定会给买家最完善的服务!但请买卖双方尽量保留如聊天记录这样的重要信息,以防产生纠纷时便于送码网快速介入处理。
送码声明
1、送码网作为第三方中介平台,依据双方交易合同(商品描述、交易前商定的内容)来保障交易的安全及买卖双方的权益;
2、非平台线上交易的项目,出现任何后果均与送码网无关;无论卖家以何理由要求线下交易的(如:要求买家支付宝转账付款的,微信转账付款的等),请联系管理举报,本平台将清退卖家处理。
正版 steam 原子之心 Atomic Heart 国区激活码 cd...
steam 英雄连3 国区激活码CDKEY PC游戏正版 Compan...
【骑砍中文站】PC 中文Steam 骑马与砍杀2 霸主 骑砍2 豪华版...
正版 steam 原子之心 Atomic Heart 国区激活码 cd...
M,日朋礼送男友老公创意实人用星人际机器蓝牙音箱走心情节生礼...
PC中文正版Steam 消逝的光芒2 消失的光芒2 Dying Lig...
Steam 女神异闻录5 皇家版 国区激活码CDKey秒发 Perso...
Steam怪物猎人崛起 曙光DLC 激活码cdkey 怪物猎人曙光 M...
steam 只狼 激活码CDKey 只狼影逝二度 Sekiro: Sh...
steam 女神异闻录5皇家版 国区激活码CDKey P5R 女神异闻...
【自营】新版牛津自然拼读教材 Oxford Phonics World...
Steam信长之野望大志 威力加强版 NOBUNAGA'S AMBIT...
智能机器人高科技学习机陪伴孩子学习早教机对话玩具人工男女通用wifi-...
【骑砍中文站】骑马与砍杀 战团DLC 维京征服 正版 Steam CD...
steam 明星志愿1 stardom 休闲 模拟 恋爱 单人 多结局...
steam正版游戏 PC中文 蝙蝠侠阿卡姆骑士 Batman: Ark...
steam 明星志愿2000 stardom2000 休闲 模拟 恋爱...
STM32F103C8T6单片机开发板 ARM学习板STM32模块核心...
适用于小牛手机导航支架MQiL/N1s/UQi/mqi2/G0/F0/...
野火秉火7寸电容屏800X480 5点触控RGB屏幕 STM32开发板...