第 1章
机器学习基础 1
1.1 机器学习概要 2
什么是机器学习 2
机器学习的种类 3
机器学习的应用 8
1.2 机器学习的步骤 9
数据的重要性 9
有监督学习(分类)的例子 11
无监督学习(聚类)的例子 16
可视化 18
图形的种类和画法:使用Matplotlib显示图形的方法 22
使用pandas理解和处理数据 30
本章小结 36
第 2章
有监督学习 37
2.1 算法1:线性回归 38
概述 38
算法说明 39
详细说明 41
2.2 算法2:正则化 45
概述 45
算法说明 48
详细说明 50
2.3 算法3:逻辑回归 52
概述 52
算法说明 53
详细说明 55
2.4 算法4:支持向量机 58
概述 58
算法说明 59
详细说明 60
2.5 算法5:支持向量机(核方法) 63
概述 63
算法说明 64
详细说明 65
2.6 算法6:朴素贝叶斯 68
概述 68
算法说明 70
详细说明 74
2.7 算法7:随机森林 76
概述 76
算法说明 77
详细说明 80
2.8 算法8:神经网络 81
概述 81
算法说明 83
详细说明 86
2.9 算法9:KNN 88
概述 88
算法说明 89
详细说明 90
第3章
无监督学习 93
3.1 算法10:PCA 94
概述 94
算法说明 95
详细说明 98
3.2 算法11:LSA 99
概述 99
算法说明 100
详细说明 104
3.3 算法12:NMF 105
概述 105
算法说明 106
详细说明 108
3.4 算法13:LDA 111
概述 111
算法说明 112
详细说明 114
3.5 算法14:k-means算法 117
概述 117
算法说明 117
详细说明 119
3.6 算法15:混合高斯分布 122
概述 122
算法说明 123
详细说明 126
3.7 算法16:LLE 127
概述 127
算法说明 128
详细说明 131
3.8 算法17:t-SNE 133
概述 133
算法说明 134
详细说明 136
第4章
评估方法和各种数据的处理 139
4.1 评估方法 140
有监督学习的评估 140
分类问题的评估方法 140
回归问题的评估方法 148
均方误差和决定系数指标的不同 152
与其他算法进行比较 152
超参数的设置 154
模型的过拟合 155
防止过拟合的方法 155
将数据分为训练数据和验证数据 156
交叉验证 158
搜索超参数 160
4.2 文本数据的转换处理 163 基于单词出现次数的转换 163 基于tf-idf的转换 164 应用于机器学习模型 165 4.3 图像数据的转换处理 167 直接将像素信息作为数值使用 167 将转换后的向量数据作为输入来应用机器学习模型 168 第5章 环境搭建 171 5.1 Python 3的安装 172 Windows 172 macOS 172 Linux 173 使用Anaconda在Windows上安装 174 5.2 虚拟环境 175 通过官方安装程序安装Python的情况 175 通过Anaconda安装Python的情况 177 5.3 第三方包的安装 178 什么是第三方包 178 安装第三方包的方法 178 参考文献 180
......
本书基于丰富的图示,详细介绍了有监督学习和无监督学习的17种算法,包括线性回归、正则化、逻辑回归、支持向量机、核方法、朴素贝叶斯、随机森林、神经网络、KNN、PCA、LSA、NMF、LDA、k-means算法、混合高斯分布、LLE和t-SNE。书中针对各算法均用Python代码进行了实现,读者可一边运行代码一边阅读,从而加深对算法的理解。