推荐序
前言
数学符号
第1 章绪论1
1.1 引言. . . . . . . . . . . . . . . . . . 2
1.2 基本思想. . . . . . . . . . . . . . 6
1.3 解码. . . . . . . . . . . . . . . . . . 12
1.4 神经机器翻译与统计机器翻译对比. . . . . . . . . . . . . . 18
1.5 发展历史. . . . . . . . . . . . . . 27
1.6 应用现状. . . . . . . . . . . . . . 29
1.7 本书组织. . . . . . . . . . . . . . 33
1.8 阅读材料. . . . . . . . . . . . . . 35
1.9 短评:统计与规则的竞争. . 36
第I 部分基础篇
第2 章神经网络基础41
2.1 神经网络. . . . . . . . . . . . . . 42
2.2 神经网络训练. . . . . . . . . . . 48
2.3 常用神经网络简介. . . . . . . 61
2.4 阅读材料. . . . . . . . . . . . . . 70
2.5 短评:神经网络与自然语言处理关系演变. . . . . . . . . 71
第3 章自然语言处理基础75
3.1 语言模型. . . . . . . . . . . . . . 76
3.2 词嵌入. . . . . . . . . . . . . . . . 82
3.3 对齐. . . . . . . . . . . . . . . . . . 90
3.4 语言分析. . . . . . . . . . . . . . 93
3.5 阅读材料. . . . . . . . . . . . . . 99
3.6 短评:自然语言处理之经验主义与理性主义. . . . . . . 100
第II 部分原理篇
第4 章经典神经机器翻译105
4.1 编码器-解码器结构. . . . . . 106
4.2 序列到序列学习. . . . . . . . . 112
4.3 训练. . . . . . . . . . . . . . . . . . 114
4.4 解码. . . . . . . . . . . . . . . . . . 114
4.5 阅读材料. . . . . . . . . . . . . . 116
4.6 短评:神经机器翻译之独立同发现——编码器-解码器vs. 序列到序列. . . . . 117
第5 章基于注意力的神经机器翻译119
5.1 经典神经机器翻译模型的瓶颈. . . . . . . . . . . . . . . . . . 120
5.2 注意力机制. . . . . . . . . . . . 120
5.3 注意力机制的改进. . . . . . . 124
5.4 基于注意力的多层神经机器翻译模型GNMT . . . . . . . 127
5.5 阅读材料. . . . . . . . . . . . . . 128
5.6 短评:注意力机制与认知注意. . . . . . . . . . . . . . . . . . 129
第6 章基于卷积神经网络的神经机器翻译模型131
6.1 卷积编码器. . . . . . . . . . . . 132
6.2 全卷积序列到序列模型. . . . 133
6.3 ByteNet . . . . . . . . . . . . . . . 137
6.4 阅读材料. . . . . . . . . . . . . . 139
6.5 短评:卷积神经机器翻译——实用性倒逼技术创新. . 140
第7 章基于自注意力的神经机器翻译142
7.1 自注意力机制. . . . . . . . . . . 143
7.2 Transformer 模型. . . . . . . . 144
7.3 自注意力改进方法. . . . . . . 149
7.4 阅读材料. . . . . . . . . . . . . . 152
7.5 短评:Transformer 带来的自然语言处理技术革新. . . . 153
第8 章神经机器翻译若干基础问题及解决方案156
8.1 开放词汇表. . . . . . . . . . . . 157
8.2 深度模型. . . . . . . . . . . . . . 161
8.3 快速解码. . . . . . . . . . . . . . 162
8.4 模型融合. . . . . . . . . . . . . . 166
8.5 领域适应. . . . . . . . . . . . . . 169
8.6 阅读材料. . . . . . . . . . . . . . 172
8.7 短评:再谈神经机器翻译新思想新技术的诞生. . . . . 173
第III 部分实践篇
第9 章数据准备176
9.1 平行语料. . . . . . . . . . . . . . 177
9.2 语料获取. . . . . . . . . . . . . . 179
9.3 数据过滤与质量评估. . . . . 183
9.4 数据处理. . . . . . . . . . . . . . 186
9.5 阅读材料. . . . . . . . . . . . . . 188
9.6 短评:浅谈数据对机器翻译的重要性. . . . . . . . . . . . 188
第10 章训练191
10.1 mini-batch 设置. . . . . . . . 192
10.2 学习速率设置. . . . . . . . . . 195
10.3 随机梯度下降算法选择. . . 197
10.4 其他超参数选择. . . . . . . . . 200
10.5 分布式训练. . . . . . . . . . . . 202
10.6 Transformer 训练设置. . . . 207
10.7 阅读材料. . . . . . . . . . . . . . 209
10.8 短评:超参数设置——自动优化与实验可复现性. . . . 210
第11 章测试213
11.1 解码. . . . . . . . . . . . . . . . . . 214
11.2 解码和训练不一致. . . . . . . 218
11.3 机器翻译评测方法. . . . . . . 220
11.4 错误分析. . . . . . . . . . . . . . 223
11.5 阅读材料. . . . . . . . . . . . . . 225
11.6 短评:评测驱动机器翻译研究. . . . . . . . . . . . . . . . . . 225
第12 章部署233
12.1 GPU 环境下的部署. . . . . . 234
12.2 CPU 环境下的部署. . . . . . 237
12.3 智能终端部署. . . . . . . . . . 240
12.4 模型压缩与计算加速. . . . . 244
12.5 阅读材料. . . . . . . . . . . . . . 245
12.6 短评:机器翻译工业部署. . 246
第13 章系统设计与实现251
13.1 总体设计. . . . . . . . . . . . . . 252
13.2 功能设计. . . . . . . . . . . . . . 254
13.3 开源系统. . . . . . . . . . . . . . 257
13.4 FAIRSEQ 解析. . . . . . . . . . 259
13.5 阅读材料. . . . . . . . . . . . . . 264
13.6 短评:机器翻译开源之路. . 264
第IV 部分进阶篇
第14 章语篇级神经机器翻译271
14.1 什么是语篇. . . . . . . . . . . . 272
14.2 语篇级机器翻译面临的挑战274
14.3 语篇级机器翻译形式化定义275
14.4 语篇级神经机器翻译方法. . 276
14.5 面向语篇现象的机器翻译评测数据集. . . . . . . . . . . . 288
14.6 语篇级机器翻译评测方法. . 288
14.7 未来方向. . . . . . . . . . . . . . 289
14.8 阅读材料. . . . . . . . . . . . . . 290
14.9 短评:神经机器翻译达到人类同等水平了吗. . . . . . . 292
第15 章低资源及无监督神经机器翻译296
15.1 低资源语言与资源稀缺挑战297
15.2 低资源神经机器翻译. . . . . 298
15.3 无监督机器翻译. . . . . . . . . 305
15.4 未来方向. . . . . . . . . . . . . . 311
15.5 阅读材料. . . . . . . . . . . . . . 312
15.6 短评:无监督机器翻译之美及挑战. . . . . . . . . . . . . . 312
第16 章融合知识的神经机器翻译315
16.1 知识与机器翻译. . . . . . . . . 316
16.2 语言学知识融合. . . . . . . . . 318
16.3 非语言学知识融合. . . . . . . 324
16.4 双语知识融合. . . . . . . . . . 328
16.5 内部知识迁移. . . . . . . . . . 332
16.6 未来方向. . . . . . . . . . . . . . 337
16.7 阅读材料. . . . . . . . . . . . . . 337
16.8 短评:浅谈基于知识的机器翻译. . . . . . . . . . . . . . . . 338
第17 章鲁棒神经机器翻译342
17.1 鲁棒性概述. . . . . . . . . . . . 343
17.2 对抗鲁棒性. . . . . . . . . . . . 346
17.3 对抗样本生成. . . . . . . . . . 347
17.4 对抗训练. . . . . . . . . . . . . . 355
17.5 数据集. . . . . . . . . . . . . . . . 356
17.6 未来方向. . . . . . . . . . . . . . 358
17.7 阅读材料. . . . . . . . . . . . . . 359
17.8 短评:神经机器翻译是疯子吗?兼谈其“幻想” . . . . 360
第18 章多语言神经机器翻译363
18.1 基本思想与形式化定义. . . 364
18.2 多语言机器翻译vs. 双语机器翻译. . . . . . . . . . . . . . 365
18.3 多语言神经机器翻译模型. . 367
18.4 训练数据采样方法. . . . . . . 375
18.5 大规模多语言神经机器翻译376
18.6 多语言神经机器翻译向双
语神经机器翻译迁移. . . . . 384
18.7 未来方向. . . . . . . . . . . . . . 386
18.8 阅读材料. . . . . . . . . . . . . . 389
18.9 短评:多语言机器翻译之美390
第19 章语音与视觉多模态神经机器翻译393
19.1 文本模态之外的机器翻译. . 394
19.2 端到端语音翻译. . . . . . . . . 395
19.3 视觉引导的多模态神经机器翻译. . . . . . . . . . . . . . . . 407
19.4 阅读材料. . . . . . . . . . . . . . 417
19.5 短评:预训练技术争议与符号奠基问题. . . . . . . . . . . 419
第20 章发展趋势与展望427
20.1 展望. . . . . . . . . . . . . . . . . . 428
20.2 本书未覆盖内容. . . . . . . . . 429
20.3 短评:科幻中的机器翻译与未来机器翻译. . . . . . . . . 433
参考文献439
索引482