书名: | 机器学习算法评估实战(全彩印刷) |
作者: | 宋亚统著 |
出版社: | 人民邮电出版社 |
出版日期: | 2021-05-01 |
版次: | 1 |
ISBN: | 9787115552402 |
市场价: | 99.9 |
目录 第 1章 分类的艺术 1
1.1 训练集和测试集的选择 1
1.2 准召率和P-R曲线 6
1.3 ROC和AUC 8
1.5 异常检测 12
1.5 小结 14
第 2章 一个好的回归算法 15
2.1 ME那些事 15
2.2 方差和偏差 17
2.3 欠拟合和过拟合 18
2.4 正则化方法 20
2.5 回归算法的对比 24
2.5.1 线回归 24
2.5.2 局部加权线回归 25
2.5.3 岭回归 26
2.6 梯度下降的对比 26
2.6.1 一般的梯度下降 26
2.6.2 梯度下降和批量梯度下降 28
2.6.3 动量梯度下降 29
2.6.4 AdaGrad、RMSProp和Adam 29
2.7 小结 31
第3章 “硬核”聚类 33
3.1 无监督学习 33
3.2 聚类算法的评估指标 34
3.2.1 霍普金斯统计量 34
3.2.2 类簇的数量 35
3.2.3 聚类效果 39
3.3 聚类算法的对比 44
3.3.1 基于密度的聚类 44
3.3.2 K-means 45
3.3.3 基于层次的聚类 46
3.3.4 基于概率的聚类 47
3.4 小结 48
第4章 慧眼识天下——深度学习算法原理对比 49
4.1 卷积神经网络 49
4.1.1 简单的卷积神经网络 49
4.1.2 详解卷积神经网络 53
4.2 循环神经网络 60
4.2.1 图解RNN 60
4.2.2 RNN的训练 65
4.2.3 RNN的变化形式 67
4.3 更实用的模型 68
4.3.1 LSTM 69
4.3.2 Seq2Seq 71
4.3.3 注意力机制 73
4.4 小结 74
第5章 智慧的语言——NLP算法实战与评估 76
5.1 文字的预处理 76
5.1.1 嵌入 76
5.1.2 word2vec 77
5.1.3 词袋模型与TF-IDF 82
5.2 RNN文本分类 84
5.2.1 RNN文本分类的模块 84
5.2.2 参数定义 84
5.2.3 预处理 85
5.2.4 模型定义 86
5.2.5 模型训练和评估 87
5.3 HAN文本分类 88
5.3.1 HAN和GRU的基本原理 88
5.3.2 HAN的注意力层 90
5.4 NLP评估 92
5.4.1 N-gram 92
5.4.2 BLEU 93
5.4.3 ROUGE 96
5.4.4 Pointwise、Pairwise和Listwise排序算法 98
5.5 小结 100
第6章 预言家的思考——树模型的对比与评估 101
6.1 基础树模型的对比 101
6.1.1 ID3 101
6.1.2 C4.5 103
6.1.3 CART 104
6.2 森林和AdaBoost 106
6.2.1 森林 106
6.2.2 AdaBoost 108
6.3 GBDT 110
6.3.1 GBDT简介 110
6.3.2 GBDT和回归问题 111
6.3.3 GBDT和分类问题 117
6.4 XGBoost 124
6.4.1 XGBoost简介 124
6.4.2 XGBoost回归算法 127
6.4.3 XGBoost分类算法 132
6.4.4 XGBoost的优化方法和特征评估 136
6.4.5 GBDT和XGBoost的对比评估 139
6.5 小结 140
第7章 爱我所算法对比与评估 141
7.1 多路召回 141
7.1.1 基于用户的协同过滤 141
7.1.2 基于物品的协同过滤 144
7.2 逻辑斯谛回归 145
7.2.1 逻辑斯谛回归的基本原理 145
7.2.2 逻辑斯谛排序 148
7.3 FM、FFM和特征组合 150
7.3.1 FM基本原理 151
7.3.2 用FFM和GBDT进行高阶特征组合 153
7.4 Wide&Deep 155
7.5 更有趣的模型——Transformer 157
7.5.1 模型整体架构 158
7.5.2 注意力机制 159
7.5.3 编码器 163
7.5.4 解码器 163
7.5.5 基于位置的前馈神经网络 164
7.5.6 嵌入层 165
7.5.7 线层和softmax层 166
7.5.8 Transform系统的应用 167
7算法的评估 170
7.6.1 度指标 171
7.6.2 排序指标 172
7.6.3 覆盖率 175
7.6.4 多样和新颖 175
7.7 小结 176
第8章 奇门遁甲—LBS算法与评估 177
8.1 坐标 177
8.1.1 坐标生成 177
8.1.2 基于密度的坐标生成 179
8.1.3 基于GeoHash块热度的坐标生成 180
8.1.4 坐标质量评估 181
8.2 路线 183
8.2.1 路线相似度评估 183
8.2.2 路线规划——Dijkstra算法 185
8.2.3 路线排序 188
8.2.4 路线质量评估 194
8.3 小结 196
第估利器——交互式可视化 198
9.1 R语言简介 198
9.1.1 为什么要可视化 198
9.1.2 R语言介绍 199
9.1.3 数据生态 202
9.2 Shiny可视化 204
9.2.1 UI布局 204
9.2.2 服务器 209
9.2.3 可视化评估示例 212
9.3 小结 215
第 10章 像哲学家一样思考——因果推断 216
10.1 机器学习之殇 216
鹦鹉学舌vs.乌鸦喝水 216
10.2 辛普森悖论 218
10.3 伯克森悖论 223
10.4 智能之梯 224
10.4.1 因果推断的起源 224
10.4.2 智能之梯 225
10.5 因果推断的方法 228
10.5.1 双重差分模型 228
10.5.2 工具变量 229
10.5.3 中介模型 231
10.6 小结 232
第 11章 基础评估方法——假设检验 234
11.1 卡方检验 234
11.2 T检验 236
11.3 Z检验和F检验 238
11.4 小结 241
参考文献 242
内容介绍 机器学习算法评估力求用科学的指标,对机器学习算法进行完整、可靠的评价。
本书详细介绍机器学习算法评估的理论、方法和实践。全书分为3个部分。第1部含第1章~第3章,针对分类算法、回归算法和聚类算法分别介绍对应的基础理论和评估方法;第2部含第4章~第8章,介绍更复杂的模型(如深度学习模型和集成树模型)的对比与评估,并且针对它们实际应用的业务场景介绍一些特有的评估指标和评估体系;第3部含第9章~第11章结算法评估的常用工具、技术及方括实用的可视化工具介绍,并讨论机器学本质。
本书适合机器学习专业相关从业者和算法工程师阅读,也适合想要从事人工智能和机器学人士学习和参考。
在线试读 媒体评论 在机器学实际应用中,我们不仅要知道算法的原理,也要了解如何评估算法上线服务的可靠。本书思路严谨、推导详细,涵盖了机器学习算法评估的方方面面,是一本难得的佳作。 ——美团LBS算法专家,陈水平 本书作者拥有扎实的理论基础和丰富的工业实践经验, 从开篇的机器学习理论, 到方兴未艾的深度学习技术, 再到工业级别的基于位置的服务应用, 将理论与实践的结合贯穿全书。我从本书中获益匪浅, 相信各位读者开卷也能获得同样的感受。 ——唯品会不错算法工程师,张凌寒 本书深入细节,对多种算法进行简洁明了的图解以及条理清晰的实例推导,让初入机器学习算法领域的读者更好容易理解各种经典模型的原理,也很好适合从业人员加深对于算法评估的认知。 ——百度不错算法工程师,孙志远 本书构思新颖,内容丰富且实用。初读之时可熟读而精思,再读之时则温故而知新。希望即将进入或者正在机器学习领域深耕的读者都可以在阅读中受益。 ——美团LBS算法工程师,陈丽影
机器学习算法评估是用科学的指标,对机器学智能、稳定与可靠进行完整、可靠的评价,并给出有条理的、可解释的结论。一个很好的算法在上线之前,要经过严密、周全的评估,才能应对现实业务环境的复杂情况,充分发挥令人惊叹的“人工智能之美”。 本书: 1. 图文并茂,全彩印刷,完整而系统地介绍机器学习算法评估理论; 2. 配套源码,基于业务场景评价算法上线服务的可靠; 3. 利用算法评估工具进行实践,探索机器学习算法本质。