李航,男,毕业于日本京都大学电气电子工程系,日本东京大学获得计算机科学博士学位。北京大学、南京大学兼职教授。曾任日本NEC公司中央研究所研究员,微软亚洲研究院高级研究员与主任研究员、华为技术有限公司诺亚方舟实验室主任。现任今日头条人工智能实验室主任。
第 1章统计学习及监督学习概论 . 3
1.1统计学习 . 3
1.2统计学习的分类 . 5
1.2.1基本分类 . 6
1.2.2按模型分类 11
1.2.3按算法分类 13
1.2.4按技巧分类 13
1.3统计学习方法三要素 15
1.3.1模型 15
1.3.2策略 16
1.3.3算法 19
1.4模型评估与模型选择 19
1.4.1训练误差与测试误差 19
1.4.2过拟合与模型选择 20
1.5正则化与交叉验证 23
1.5.1正则化 23
1.5.2交叉验证 . 24
1.6泛化能力 . 24
1.6.1泛化误差 . 24
1.6.2泛化误差上界 25
1.7生成模型与判别模型 27
1.8监督学习应用 28
1.8.1分类问题 . 28
1.8.2标注问题 . 30
1.8.3回归问题 . 32
本章概要 33
继续阅读 33
习题 33
参考文献 34
第 2章感知机 35
2.1感知机模型 35
2.2感知机学习策略 . 36
2.2.1数据集的线性可分性 36
2.2.2感知机学习策略 . 37
2.3感知机学习算法 . 38
2.3.1感知机学习算法的原始形式 38
2.3.2算法的收敛性 41
2.3.3感知机学习算法的对偶形式 43
本章概要 46
继续阅读 46
习题 46
参考文献 47
第 3章 k近邻法 49
3.1 k近邻算法 49
3.2 k近邻模型 50
3.2.1模型 50
3.2.2距离度量 . 50
3.2.3 k值的选择 52
3.2.4分类决策规则 52
3.3 k近邻法的实现:kd树 . 53
3.3.1构造 kd树 . 53
3.3.2搜索 kd树 . 55
本章概要 57
继续阅读 57
习题 58
参考文献 58
第 4章朴素贝叶斯法 59
4.1朴素贝叶斯法的学习与分类 59
4.1.1基本方法 . 59
4.1.2后验概率最大化的含义 . 61
4.2朴素贝叶斯法的参数估计 62
4.2.1极大似然估计 62
4.2.2学习与分类算法 . 62
4.2.3贝叶斯估计 64
本章概要 65
继续阅读 66
习题 66
参考文献 66
第 5章决策树 67
5.1决策树模型与学习 67
5.1.1决策树模型 67
5.1.2决策树与 if-then规则 . 68
5.1.3决策树与条件概率分布 . 68
5.1.4决策树学习 69
5.2特征选择 . 71
5.2.1特征选择问题 71
5.2.2信息增益 . 72
5.2.3信息增益比 76
5.3决策树的生成 76
5.3.1 ID3算法 . 76
5.3.2 C4.5的生成算法 78
5.4决策树的剪枝 78
5.5 CART算法 . 80
5.5.1 CART生成 . 81
5.5.2 CART剪枝 . 85
本章概要 87
继续阅读 88
习题 89
参考文献 89
第 6章逻辑斯谛回归与最大熵模型 91
6.1逻辑斯谛回归模型 91
6.1.1逻辑斯谛分布 91
6.1.2二项逻辑斯谛回归模型 . 92
6.1.3模型参数估计 93
6.1.4多项逻辑斯谛回归 94
6.2最大熵模型 94
6.2.1最大熵原理 94
6.2.2最大熵模型的定义 96
6.2.3最大熵模型的学习 98
6.2.4极大似然估计 .102
6.3模型学习的最优化算法 103
6.3.1改进的迭代尺度法 .103
6.3.2拟牛顿法 107
本章概要 .108
继续阅读 .109
习题 .109
参考文献 .109
第 7章支持向量机 111
7.1线性可分支持向量机与硬间隔最大化 112
7.1.1线性可分支持向量机 .112
7.1.2函数间隔和几何间隔 .113
7.1.3间隔最大化 .115
7.1.4学习的对偶算法 120
7.2线性支持向量机与软间隔最大化 .125
7.2.1线性支持向量机 125
7.2.2学习的对偶算法 127
7.2.3支持向量 130
7.2.4合页损失函数 .131
7.3非线性支持向量机与核函数 .133
7.3.1核技巧 .133
7.3.2正定核 .136
7.3.3常用核函数 .140
7.3.4非线性支持向量分类机 141
7.4序列最小最优化算法 .142
7.4.1两个变量二次规划的求解方法 143
7.4.2变量的选择方法 147
7.4.3 SMO算法 149
本章概要 .149
继续阅读 .152
习题 .152
参考文献 .153
第 8章提升方法 155
8.1提升方法 AdaBoost算法 .155
8.1.1提升方法的基本思路 .155
8.1.2 AdaBoost算法 .156
8.1.3 AdaBoost的例子 158
8.2 AdaBoost算法的训练误差分析 160
8.3 AdaBoost算法的解释 .162
8.3.1前向分步算法 .162
8.3.2前向分步算法与 AdaBoost .164
8.4提升树 .166
8.4.1提升树模型 .166
8.4.2提升树算法 .166
8.4.3梯度提升 170
本章概要 .172
继续阅读 .172
习题 .173
参考文献 .173
第 9章 EM算法及其推广 .175
9.1 EM算法的引入 175
9.1.1 EM算法 175
9.1.2 EM算法的导出 179
9.1.3 EM算法在无监督学习中的应用 .181
9.2 EM算法的收敛性 .181
9.3 EM算法在高斯混合模型学习中的应用 .183
9.3.1高斯混合模型 .183
9.3.2高斯混合模型参数估计的 EM算法 .183
9.4 EM算法的推广 187
9.4.1 F函数的极大-极大算法 .187
9.4.2 GEM算法 189
本章概要 .191
继续阅读 .192
习题 .192
参考文献 .192
第 10章隐马尔可夫模型 193
10.1隐马尔可夫模型的基本概念 193
10.1.1隐马尔可夫模型的定义 193
10.1.2观测序列的生成过程 196
10.1.3隐马尔可夫模型的 3个基本问题 .196
10.2概率计算算法 197
10.2.1直接计算法 .197
10.2.2前向算法 198
10.2.3后向算法 201
10.2.4一些概率与期望值的计算 .202
10.3学习算法 203
10.3.1监督学习方法 203
10.3.2 Baum-Welch算法 .204
10.3.3 Baum-Welch模型参数估计公式 .206
10.4预测算法 207
10.4.1近似算法 208
10.4.2维特比算法 .208
本章概要 .212
继续阅读 .212
习题 .213
参考文献 .213
第 11章条件随机场 215
11.1概率无向图模型 215
11.1.1模型定义 215
11.1.2概率无向图模型的因子分解 217
11.2条件随机场的定义与形式 .218
11.2.1条件随机场的定义 .218
11.2.2条件随机场的参数化形式 .220
11.2.3条件随机场的简化形式 221
11.2.4条件随机场的矩阵形式 223
11.3条件随机场的概率计算问题 224
11.3.1前向-后向算法 .225
11.3.2概率计算 225
11.3.3期望值的计算 226
11.4条件随机场的学习算法 227
11.4.1改进的迭代尺度法 .227
11.4.2拟牛顿法 230
11.5 条件随机场的预测算法 231
本章概要 .235
继续阅读 .235
习题 .236
参考文献 .236
第 12章监督学习方法总结 237
第
2篇
无
监
督
学
习
第 13章无监督学习概论245
13.1无监督学习基本原理 245
13.2基本问题 246
13.3机器学习三要素 249
13.4 无监督学习方法 249
本章概要 .253
继续阅读 .254
参考文献 .254
第 14章聚类方法 255
14.1聚类的基本概念 255
14.1.1相似度或距离 255
14.1.2类或簇 258
14.1.3类与类之间的距离 .260
14.2层次聚类 261
14.3 k均值聚类 .263
14.3.1模型 .263
14.3.2策略 .263
14.3.3算法 .264
14.3.4算法特性 266
本章概要 .267
继续阅读 .268
习题 .269
参考文献 .269
第 15章奇异值分解 271
15.1奇异值分解的定义与性质 .271
15.1.1定义与定理 .271
15.1.2紧奇异值分解与截断奇异值分解 .276
15.1.3几何解释 279
15.1.4主要性质 280
15.2奇异值分解的计算 .282
15.3奇异值分解与矩阵近似 286
15.3.1弗罗贝尼乌斯范数 .286
15.3.2矩阵的最优近似 287
15.3.3矩阵的外积展开式 .290
本章概要 .292
继续阅读 .294
习题 .294
参考文献 .295
第 16章主成分分析 297
16.1总体主成分分析 297
16.1.1基本想法 297
16.1.2定义和导出 .299
16.1.3主要性质 301
16.1.4主成分的个数 306
16.1.5规范化变量的总体主成分 .309
16.2样本主成分分析 310
16.2.1样本主成分的定义和性质 .310
16.2.2相关矩阵的特征值分解算法 312
16.2.3数据矩阵的奇异值分解算法 315
本章概要 .317
继续阅读 .319
习题 .320
参考文献 .320
第 17章潜在语义分析 .321
17.1单词向量空间与话题向量空间 321
17.1.1单词向量空间 321
17.1.2话题向量空间 324
17.2潜在语义分析算法 .327
17.2.1矩阵奇异值分解算法 327
17.2.2例子 .329
17.3非负矩阵分解算法 .331
17.3.1非负矩阵分解 331
17.3.2潜在语义分析模型 .332
17.3.3非负矩阵分解的形式化 332
17.3.4算法 .333
本章概要 .335
继续阅读 .337
习题 .337
参考文献 .337
第 18章概率潜在语义分析 339
18.1概率潜在语义分析模型 339
18.1.1基本想法 339
18.1.2生成模型 340
18.1.3共现模型 341
18.1.4模型性质 342
18.2 概率潜在语义分析的算法 .345
本章概要 .347
继续阅读 .348
习题 .348
参考文献 .349
第 19章马尔可夫链蒙特卡罗法 351
19.1蒙特卡罗法 .351
19.1.1随机抽样 351
19.1.2数学期望估计 353
19.1.3积分计算 353
19.2马尔可夫链 .355
19.2.1基本定义 355
19.2.2离散状态马尔可夫链 356
19.2.3连续状态马尔可夫链 362
19.2.4马尔可夫链的性质 .363
19.3马尔可夫链蒙特卡罗法 367
19.3.1基本想法 367
19.3.2基本步骤 369
19.3.3马尔可夫链蒙特卡罗法与统计学习 369
19.4 Metropolis-Hastings算法 .370
19.4.1基本原理 370
19.4.2 Metropolis-Hastings算法 .373
19.4.3单分量 Metropolis-Hastings算法 374
19.5吉布斯抽样 .375
19.5.1基本原理 376
19.5.2吉布斯抽样算法 377
19.5.3抽样计算 378
本章概要 .379
继续阅读 .381
习题 .381
参考文献 .383
第 20章潜在狄利克雷分配 385
20.1狄利克雷分布 385
20.1.1分布定义 385
20.1.2共轭先验 389
20.2潜在狄利克雷分配模型 390
20.2.1基本想法 390
20.2.2模型定义 391
20.2.3概率图模型 .393
20.2.4随机变量序列的可交换性 .394
20.2.5概率公式 395
20.3 LDA的吉布斯抽样算法 .396
20.3.1基本想法 396
20.3.2算法的主要部分 397
20.3.3算法的后处理 399
20.3.4算法 .399
20.4 LDA的变分 EM算法 401
20.4.1变分推理 401
20.4.2变分 EM算法 .403
20.4.3算法推导 404
20.4.4算法总结 411
本章概要 .411
继续阅读 .413
习题 .413
参考文献 .413
第 21章 PageRank算法 415
21.1 PageRank的定义 415
21.1.1基本想法 415
21.1.2有向图和随机游走模型 416
21.1.3 PageRank的基本定义 .418
21.1.4 PageRank的一般定义 .421
21.2 PageRank的计算 423
21.2.1迭代算法 423
21.2.2幂法 .425
21.2.3代数算法 430
本章概要 .430
继续阅读 .432
习题 .432
参考文献 .432
第 22章无监督学习方法总结 .435
22.1无监督学习方法的关系和特点 435
22.1.1各种方法之间的关系 435
22.1.2无监督学习方法 436
22.1.3基础机器学习方法 .437
22.2 话题模型之间的关系和特点 437
参考文献 .438
附录 A梯度下降法 439
附录 B牛顿法和拟牛顿法 .441
附录 C拉格朗日对偶性 447
附录 D矩阵的基本子空间 451
附录 E KL散度的定义和狄利克雷分布的性质 .455
索引 .457