• 最后更新 2023-10-13
  • 销量/好评 0 + 评论
  • 交易规则(重要)

Spark和Python机器学习实战:预测分析核心方法书迈克尔·鲍尔斯数据处理软件普通大众工业技术书籍
本站优惠价
72.40
10.0折 原价:¥72.4
  • 销量
  • 卖家
  • 0+
  • 人天兀鲁思图书专营店

服务由"人天兀鲁思图书专营店"发货,并提供售后服务。

    担保交易,安全保证,有问题不解决可申请退款。购买前请询问清楚卖家,以卖家承诺为准! 自动发货商品,随时可以购买,付款后在订单详情下载,零等待。 不同会员等级尊享不同购买折扣。
天猫优惠券

天猫优惠券

已缴纳保证金

该商家已加入保障计划

基本信息 
书名:  Spark和Python机器学习实战:预测分析核心方法
作者:  (美)迈克尔·鲍尔斯(Michael Bowles)著
出版社:  人民邮电出版社
出版日期:  2022-03-01
版次:  第2版
ISBN:  9787115583819
市场价:  99.9
目录 目录
第 1章 做预测的两类核心算法 1
1.1 为什么这两类算法如此有用 1
1.2 什么是惩罚线回归方法 5
1.3 什么是集成方法 7
1.4 算法的选择 8
1.5 构建预测模型的步骤 10
1.5.1 构造一个机器学习问题 12
1.5.2 特征提取和特征工程 13
1.5.3 确定训练好的模型的能 14
1.6 各章内容及其依赖关系 14
1.7 小结 16
第 2章 通过理解数据来了解问题 17
2.1 剖析一个新问题 17
2.1.1 属和标签的不同类型决定模型的选择 19
2.1.2 新数据集的注意事项 20
2.2 分类问题:用声呐发现未爆炸的水雷 21
2.2.1 岩石与水雷数据集的物理特 21
2.2.2 岩石与水雷数据集的统计概要 24
2.2.3 用分位数图展示异常点 26
2.2.4 类别属的统计特征 28
2.2.5 用Python pandas对岩石与水雷数据集进行统计分析 28
2.3 对岩石与水雷数据集属进行可视化 31
2.3.1 用平行坐标图进行可视化 31
2.3.2 对属和标签间关系进行可视化 33
2.3.3 用热图对属和标签的相关进行可视化 40
2.3.4 对岩石与水雷数据集探究过程的小结 41
2.4 以因素变量进行实数值预测:鲍鱼的年龄 41
2.4.1 回归问题的平行坐标图——鲍鱼年龄问题的属关系可视化 47
2.4.2 将相关热图用于回归问题——鲍鱼年龄问题的属对相关的可视化 50
2.5 用实数值属进行实数值预测:评估红酒口感 52
2.6 多类别分类问题:玻璃分类 59
2.7 用PySpark理解大规模数据集 63
2.8 小结 67
第3章 构建预测模型:平衡能、复杂度和大数据 69
3.1 基本问题:理解函数逼近 69
3.1.1 使用训练数据 70
3.1.2 评估预测模型的能 72
3.2 影响算法选择及能的因素——复杂度及数据 72
3.2.1 简单问题和复杂问题的比较 73
3.2.2 简单模型和复杂模型的比较 75
3.2.3 影响预测算法能的因素 79
3.2.4 选择算法:线或者非线 79
3.3 评测预测模型的能 80
3.3.1 不同类型问题的能评测 80
3.3.2 模拟部署后模型的能 94
3.4 模型与数据的均衡 95
3.4.1 通过权衡问题复杂度、模型复杂度和数据集规模来选择模型 96
3.4.2 使用前向逐步回归来控制过拟合 97
3.4.3 评估并理解预测模型 102
3.4.4 通过惩罚回归系数来控制过拟合——岭回归 104
3.5 在超大规模数据集上用PySpark训练惩罚回归模型 113
3.6 小结 116
第4章 惩罚线回归 117
4.1 为什么惩罚线回归方法如此有用 117
4.1.1 模型训练足够快 118
4.1.2 有变量的重要信息 118
4.1.3 部署时评估足够快 118
4.1.4 能可靠 118
4.1.5 稀疏解 119
4.1.6 问题可能需要线模型 119
4.1.7 使用集成方法的时机 119
4.2 惩罚线回归:对线回归进行正则化以获得优能 119
训练线模型:小化误差等 121
4.3 求解惩罚线回归问题 126
4.3.1 理解小角度回归及其与前向步进回归的关系 126
4.3.2 使用Glm:快速且通用 136
4.4 将线回归扩展到分类问题 141
4.4.1 用惩罚回归求解分类问题 141
4.4.2 多类别分类问题的求解 145
4.4.3 理解基扩展:用线方法求解非线问题 145
4.4.4 将非数值属引入线方法 147
4.5 小结 150
第5章 用惩罚线回归方法构建预测模型 153
5.1 惩罚线回归的Pytho 153
5.2 多变量回归:预测红酒口感 154
5.2.1 构建并测试预测红酒口感的模型 155
5.2.2 部署前在整个数据集上进行训练 158
5.3 二元分类:用惩罚线回归探测未爆炸水雷 165
5.4 多类别分类:犯罪现场玻璃样本分类 184
5.5 用PySpark实现线回归和分类 187
5.6 用PySpark预测红酒口感 188
5.7 用PySpark实现逻辑斯蒂回归:岩石与水雷 193
5.8 将类别变量引入PySpark模型:预测鲍鱼年龄 198
5.9 具有元参数优化的多类别逻辑斯蒂回归 202
5.10 小结 205
第6章 集成方法 207
6.1 二元决策树 207
6.1.1 如何用二元决策树进行预测 210
6.1.2 如何训练二元决策树 210
6.1.3 决策树的训练等同于分割点的选择 213
6.1.4 二元决策树的过拟合 217
6.1.5 针对分类问题和类别特征所做的修改 220
6.2 自举汇聚:投票法 221
6.2.1 投票法如何工作 221
6.2.2 投票法小结 232
6.3 梯度提升法 232
6.3.1 梯度提升法的基本原理 232
6.3.2 获取梯度提升法的佳能 236
6.3.3 针对多变量问题的梯度提升法 239
6.3.4 梯度提升法小结 243
6.4 森林法 243
6.4.1 森林法:投票法加属子集 246
6.4.2 影响森林法能的因素 246
6.4.3 森林法小结 248
6.5 小结 248
第7章 用Python构建集成模型 251
7.1 用Python集成方求解回归问题 251
7.1.1 用梯度提升法预测红酒口感 251
7.1.2 构建森林模型预测红酒口感 257
7.2 将非数值属引入Python集成模型 265
7.2.1 用Python将鲍鱼别属编码引入梯度提升法 265
7.2.2 用梯度提升法评估能和编码变量的重要 267
7.2.3 用Python将鲍鱼别属编码引入森林回归 269
7.2.4 评估能和编码变量的重要 272
7.3 用Python集成方法求解二元分类问题 273
7.3.1 用Python梯度提升法探测未爆炸水雷 273
7.3.2 测定梯度提升分类器的能 276
7.3.3 用Python森林法探测未爆炸水雷 278
7.3.4 构建森林模型探测未爆炸水雷 279
7.3.5 测定森林分类器的能 283
7.4 用Python集成方法求解多类别分类问题 285
7.4.1 处理类别不均衡问题 286
7.4.2 用梯度提升法对玻璃进行分类 286
7.4.3 测定梯度提升模型在玻璃分类问题上的能 291
7.4.4 用森林法对玻璃进行分类 292
7.4.5 测定森林模型在玻璃分类问题上的能 296
7.5 用PySpark集成方求解回归问题 297
7.5.1 用PySpark集成方法预测红酒口感 298
7.5.2 用PySpark集成方法预测鲍鱼年龄 303
7.5.3 用PySpark集成方法区分岩石与水雷 308
7.5.4 用PySpark集成方法识别玻璃类型 312
7.6 小结 314内容介绍 本书着重介绍可以有效预测结果的两类核心算法括惩罚线回归方法和集成方法,然后通过一系列的示例细节来展示针对不同的问题如何使用这些方法。全书分为7章,主要讲述算法的选择、构建预测模型时的要点等内容,并且结合Spark和Python技术,引入岩石与水雷、鲍鱼年龄问题、红酒口感、玻璃分类等经典数据集,将机器学习应用到数据预测分析中,帮助读者系统地掌握利用机器学习进行预测分析的基本过程,并将其应用到实际项目中。在线试读 媒体评论 机器学习关注的是预测——利用历史和未来之间的关系,根据所知道的预测想知道的。机器学核心是一种基于数学/算,本书聚焦于两类能够实现有效预测结果的算法族,并借助当前流行的 Python 语言来展现如何应用这些算法,使掌握机器学习更加简单。本书展示了如何利用 PySpark 将这两类算法扩展到需要使用多个分布式处理器的超大规模数据集上。
1.深入浅出,简单术语。本书没有用复杂的数学公式,而是用简单的术语来解释算法,并提供示例代码来帮助读者快速上手。
2.针对小白设计,内容丰富易懂。本书专为没有专业数学或统计学背景的读者设计含如下内容: 为择合适的算法; 学习相关机制以及准备数据; 通过代码演示算法的PySpark实现,可扩展到使用数百个处理器的大规模数据集上; 掌握核心Python机器学习算; 构建多种有效的预测模型; 将训练好的模型应用于各种实际场景; 评测模型的能,以实现更好的质量控制和应用; 使用Jupyter Notebook格式的示例代码设计和构建自己的模型。
通过本书,读者将深入探究方案构建背后的机制,并学会选择和应用适合当前问题的算法。具体代码的详细示例,以及惩罚线回归和集成方法的详细描述可以帮助读者了解机器学基本过程。
机器学习关注的是预测——利用历史和未来之间的关系,根据所知道的预测想知道的。机器学核心是一种基于数学/算,本书聚焦于两类能够实现有效预测结果的算法族,并借助当前流行的 Python 语言来展现如何应用这些算法,使掌握机器学习更加简单。本书展示了如何利用 PySpark 将这两类算法扩展到需要使用多个分布式处理器的超大规模数据集上。 1.深入浅出,简单术语。本书没有用复杂的数学公式,而是用简单的术语来解释算法,并提供示例代码来帮助读者快速上手。 2.针对小白设计,内容丰富易懂。本书专为没有专业数学或统计学背景的读者设计含如下内容: 为择合适的算法; 学习相关机制以及准备数据; 通过代码演示算法的PySpark实现,可扩展到使用数百个处理器的大规模数据集上; 掌握核心Python机器学习算; 构建多种有效的预测模型; 将训练好的模型应用于各种实际场景; 评测模型的能,以实现更好的质量控制和应用; 使用Jupyter Notebook格式的示例代码设计和构建自己的模型。 通过本书,读者将深入探究方案构建背后的机制,并学会选择和应用适合当前问题的算法。具体代码的详细示例,以及惩罚线回归和集成方法的详细描述可以帮助读者了解机器学基本过程。
  • 商品评价
  • 交易规则


  • 发货方式


  • 自动:在特色服务中标有自动发货的商品,拍下后,源码类 软件类 商品会在订单详情页显示来自卖家的商品下载链接,点卡类 商品会在订单详情直接显示卡号密码。

    手动:未标有自动发货的的商品,付款后,商品卖家会收到平台的手机短信、邮件提醒,卖家会尽快为您发货,如卖家长时间未发货,买家也可通过订单上的QQ或电话主动联系卖家。


  • 退款说明


  • 1、源码类:商品详情(含标题)与实际源码不一致的(例:描述PHP实际为ASP、描述的功能实际缺少、功能不能正常使用等)!有演示站时,与实际源码不一致的(但描述中有"不保证完全一样、可能有少许偏差"类似显著公告的除外);

  • 2、营销推广:未达到卖家描述标准的;

    3、点卡软件所售点卡软件无法使用的;

  • 3、发货:手动发货商品,在卖家未发货前就申请了退款的;

    4、服务:卖家不提供承诺的售后服务的;(双方提前有商定和描述中有显著声明的除外)

    5、其他:如商品或服务有质量方面的硬性常规问题的。未符合详情及卖家承诺的。

  • 注:符合上述任一情况的,均支持退款,但卖家予以积极解决问题则除外。交易中的商品,卖家无法修改描述!


  • 注意事项


  • 1、在付款前,双方在QQ上所商定的内容,也是纠纷评判依据(商定与商品描述冲突时,以商定为准);

    2、源码商品,同时有网站演示与商品详情图片演示,且网站演示与商品详情图片演示不一致的,默认按商品详情图片演示作为纠纷评判依据(卖家有特别声明或有额外商定的除外);

  • 3、点卡软件商品,默认按商品详情作为纠纷评判依据(特别声明或有商定除外);

  • 4、营销推广商品,默认按商品详情作为纠纷评判依据(特别声明或有商定除外);

    5、在有"正当退款原因和依据"的前提下,写有"一旦售出,概不支持退款"等类似的声明,视为无效声明;

    6、虽然交易产生纠纷的几率很小,卖家也肯定会给买家最完善的服务!但请买卖双方尽量保留如聊天记录这样的重要信息,以防产生纠纷时便于送码网快速介入处理。


  • 送码声明


  • 1、送码网作为第三方中介平台,依据双方交易合同(商品描述、交易前商定的内容)来保障交易的安全及买卖双方的权益;

  • 2、非平台线上交易的项目,出现任何后果均与送码网无关;无论卖家以何理由要求线下交易的(如:要求买家支付宝转账付款的,微信转账付款的等),请联系管理举报,本平台将清退卖家处理。


热门推荐
浏览记录