商品名称: | 深度学习 | 开本: | |
作者: | (美)伊恩·古德费洛//(加)约书亚·本吉奥//亚伦·库维尔|译者:赵申剑//黎彧君//符天凡//李凯 | 页数: | |
定价: | 168 | 出版时间: | 2017-08-01 |
ISBN号: | | 印刷时间: | 2017-08-01 |
出版社: | 人民邮电 | 版次: | 1 |
商品类型: | 图书 | 印次: | 1 |
内容提要:*********
......
精 彩 页: 第1章 引言
远在古希腊时期,发明家就梦想着创造能自主思
考的机器。神话人物皮格马利翁fPygmalion)、代达
罗斯(Daedalus)和赫淮斯托斯(Hephaestus)可
以被看作传说中的发明家,而加拉蒂亚(Galatea)
、塔洛斯(Talos)和潘多拉(Pandora)则可以被视
为人造生命(Ovid andMartin,2004;Sparkes,
1996;Tandy,1997)。
当人类 次构思可编程计算机时,就已经在思
考计算机能否变得智能(尽管这距造出 台计算机
还有一百多年)(Lovelace,1842)。如今,人工智
能(artificial intelligence,AI)已经成为一个
具有众多实际应用和活跃研究课题的领域,并且正在
蓬勃发展。我们期望通过智能软件自动地处理常规劳
动、理解语音或图像、帮助医学诊断和支持基础科学
研究。
在人工智能的早期,那些对人类智力来说 困
难、但对计算机来说相对简单的问题得到迅速解决,
比如,那些可以通过一系列形式化的数学规则来描述
的问题。人工智能的真正挑战在于解决那些对人来说
很容易执行、但很难形式化描述的任务,如识别人们
所说的话或图像中的脸。对于这些问题,我们人类往
往可以凭借直觉轻易地解决。
针对这些比较直观的问题,本书讨论一种解决方
案。该方案可以让计算机从经验中学习,并根据层次
化的概念体系来理解世界,而每个概念则通过与某些
相对简单的概念之间的关系来定义。让计算机从经验
获取知识,可以避免由人类来给计算机形式化地
它需要的所有知识。层次化的概念让计算机构建较简
单的概念来学习复杂概念。如果绘制出表示这些概念
如何建立在彼此之上的图,我们将得到一张“深”(
层次很多)的图。基于这个原因,我们称这种方法为
AI深度学习(deep learning)。
AI许多早期的成功发生在相对朴素且形式化的环
境中,而且不要求计算机具备很多关于界的知识。例
如,IBM的深蓝(Deep Blue) 象棋系统在1997年
击败了世界 GarryKasparov(Hsu,2002)。显
然 象棋是一个 简单的领域,因为它仅含有64
个位置并只能以严格限制的方式移动32个棋子。设计
一种成功的 象棋策略是巨大的成就,但向计算机
描述棋子及其允许的走法并不是这一挑战的困难所在
。 象棋 可以由一个 简短的、 形式化
的规则列表来描述,并可以容易地由程序员事先准备
好。
具有讽刺意义的是,抽象和形式化的任务对人类
而言是 困难的脑力任务之一,但对计算机而言却属
于 容易的。计算机早就能够打败人类 的 象
棋选手,但直到 近计算机才在识别对象或语音任务
中达到人类平均水平。一个人的日常生活需要关于世
界的巨量知识。很多这方面的知识是主观的、直观的
,因此很难通过形式化的方式表达清楚。计算机需要
获取同样的知识才能表现出智能。人工智能的一个关
键挑战就是如何将这些非形式化的知识传达给计算机
。
一些人工智能项目力求将关于世界的知识用形式
化的语言进行硬编码(hard-code)。计算机可以使
用逻辑推理规则来自动地理解这些形式化语言中的声
明。这就是众所周知的人工智能的知识库
(knowledge base)方法。然而,这些项目 终都没
有取得重大的成功。其中 的项目是Cyc(Lenat
and Guha,1989)。Cyc包括一个推断引擎和一个使
用CycL语言描述的声明数据库。这些声明是由人类监
督者输入的。这是一个笨拙的过程。人们设法设计出
足够复杂的形式化规则来 地描述世界。(P1-2)
......
作者简介: 黎彧君,上海交通大学计算机系博士研究生,研究方向为数值优化和强化学习。
......
目录:第1章 引言
1.1 本书面向的读者
1.2 深度学习的历史趋势
1.2.1 神经网络的众多名称和命运变迁
1.2.2 与日俱增的数据量
1.2.3 与日俱增的模型规模
1.2.4 与日俱增的精度、复杂度和对现实世界的冲击
部分 应用数学与机器学习基础
第2章 线性代数
2.1 标量、向量、矩阵和张量
2.2 矩阵和向量相乘
2.3 单位矩阵和逆矩阵
2.4 线性相关和生成子空间
2.5 范数
2.6 特殊类型的矩阵和向量
2.7 特征分解
2.8 奇异值分解
2.9 Moore-Penrose伪逆
2.10 迹运算
2.11 行列式
2.12 实例:主成分分析
第3章 概率与信息论
3.1 为什么要使用概率
3.2 随机变量
3.3 概率分布
3.3.1 离散型变量和概率质量函数
3.3.2 连续型变量和概率密度函数
3.4 边缘概率
3.5 条件概率
3.6 条件概率的链式法则
3.7 独立性和条件独立性
3.8 期望、方差和协方差
3.9 常用概率分布
3.9.1 Bernoulli分布
3.9.2 Multinoulli分布
3.9.3 高斯分布
3.9.4 指数分布和Laplace分布
3.9.5 Dirac分布和经验分布
3.9.6 分布的混合
3.10 常用函数的有用性质
3.11 贝叶斯规则
3.12 连续型变量的技术细节
3.13 信息论
3.14 结构化概率模型
第4章 数值计算
4.1 上溢和下溢
4.2 病态条件
4.3 基于梯度的优化方法
4.3.1 梯度之上:Jacobian和Hessian矩阵
4.4 约束优化
......