9787111725206 9787121437526
作 者:王海峰 何中军 吴华 著
定 :89
出 版 社:机械工业出版社
出版日期:2023年04月01日
页 数:280
装 帧:平装
ISBN:9787111725206
《经网络机器翻译技术及产业应用》由百度席技术官王海峰、百度人工智能技术委员会何中军、百度技术委员会吴华联合撰写,以产业需求为牵引,介绍了新时期机器翻译的产业需求点、经网络机器翻译的原理与方法、近期新技术进展及产业应用。全书兼具理论与实践,既有对原理与方法的介绍,又有丰富的产业应用案例。《经网络机器翻译技术及产业应用》共九章:第1章 绪论,先阐述了机器翻译发展的时代背景和技术发展脉络,从多个角度回顾了机器翻译的发展历程,介绍了当前机器翻译的发展现状以及产业应用需求点和挑战。第2章 翻译语料获取与译文质量评,介绍了翻译语料获取的相关技术以及机器翻译常用的评方法,括人工评、自动评、面向产业应用的评。第3章 经网络机器翻译,先介绍了经网络机器翻译的基本原理和模型结构,接下来介绍了多种翻译模型,后介绍了利用开源工具搭建一个经网络机器翻译系统的方法。第4章 高性能机器翻译,结合百度、谷歌等公司的机器翻译系统实践,先介绍了经网络机器翻译的产业化进程,然后介绍了常用的提升系统性能的方法,后介绍了开源工具平台中的高性能实现方案。第5章 多语言机器翻译,先介绍了数据增强技术以扩充训练数据规模,然后介绍了基于无监督的训练方法以及多种翻译模型,后介绍了近年来快速发展的多语言预训练技术及其在多语言机器翻译上的应用。本章结尾还结合百度、谷歌、脸书等公司的实践,介绍了大规模多语言机器翻译系统。第6章 领域自适应,介绍了领域自适应技术,通过数据增强、化训练等多种手段,使翻译模型在具体领域上获得较高的翻译质量。第7章 机器同声传译,先介绍了机器同传的主要挑战和发展现状,然后介绍了目前常用的机器同传数据集和评方式,后介绍了如何使用开源工具搭建一个机器同传系统。第8章 机器翻译产业化应用,着重介绍了现实生活中机器翻译丰富的产品形式和广泛应用。第9章 总结与展望,对全书进行了总结,并对机器翻译的未来发展进行展望。
经机器翻译:基础、原理、实践与进(全彩)
内容简介
机器翻译是计算机科学与语言学交形成的早的研究方向,是自然语言处理技术的重要发源地。本书聚焦新一代机器翻译技术——经机器翻译,系统梳理和介绍经机器翻译的核心方法和前沿研究课题。全书分为基础篇、原理篇、实践篇和进篇,覆盖经机器翻译的基础知识、框架、原理技术、实践方法与技巧,以及无监督经机器翻译、多语言经机器翻译、语音与视觉多模态机器翻译等前沿研究方向。全书理论与实践相结合,基础与前沿相交映。
除此之外,本书的一个色是在每一章均附有一篇短评,针对相应章节的主题,介绍和经机器翻译技术背后的、故事、思想、哲学、争议和规范等。短评与全书内容相交错,使读者对经机器翻译技术不仅知其然,而且知其所以然。
本书适合高等院校计算机业高年级本科生,以及人工智能、自然语言处理方向的研究生阅读,也可供机器翻译研究者、实践者、使用者,以及机器翻译行业的管理者、人工翻译研究人员等对机器翻译技术感兴趣的读者参考。
目录
推荐序
前言
数学符号
第1 章绪论/1
1.1 引言/ 2
1.2 基本思想/ 6
1.3 解码/ 12
1.4 经机器翻译与统计机器翻译对比/18
1.5 发展/27
1.6 应用现状/29
1.7 本书组织/33
1.8 阅读材料/35
1.9 短评:统计与规则的竞争/36
第I 分基础篇
第2 章经网络基础/41
2.1 经网络/42
2.2 经网络训练/48
2.3 常用经网络简介/61
2.4 阅读材料/70
2.5 短评:经网络与自然语言处理关系演变/71
第3 章自然语言处理基础/75
3.1 语言模型/ 76
3.2 词嵌入/82
3.3 对齐/ 90
3.4 语言分析/ 93
3.5 阅读材料/99
3.6 短评:自然语言处理之经验主义与理性主义/100
第II 分原理篇
第4 章经机器翻译/105
4.1 编码器-解码器结构/106
4.2 序列到序列学/112
4.3 训练/114
4.4 解码/114
4.5 阅读材料/116
4.6 短评:经机器翻译之独立同发现——编码器-解码器vs. 序列到序列/117
第5 章基于注意力的经机器翻译/119
5.1 经机器翻译模型的瓶颈/120
5.2 注意力机制/120
5.3 注意力机制的改进/124
5.4 基于注意力的多层经机器翻译模型GNMT/127
5.5 阅读材料/128
5.6 短评:注意力机制与认知注意/129
第6 章基于卷积经网络的经机器翻译模型/131
6.1 卷积编码器/132
6.2 全卷积序列到序列模型/133
6.3 ByteNet/137
6.4 阅读材料/139
6.5 短评:卷积经机器翻译——实用性倒逼技术创新/140
第7 章基于自注意力的经机器翻译/142
7.1 自注意力机制/143
7.2 Transformer 模型/144
7.3 自注意力改进方法/149
7.4 阅读材料/152
7.5 短评:Transformer 带来的自然语言处理技术革新/153
第8 章经机器翻译若干基础问题及解决方案/156
8.1 开放词汇表/157
8.2 深度模型/161
8.3 快速解码/162
8.4 模型融合/166
8.5 领域适应/169
8.6 阅读材料/172
8.7 短评:再谈经机器翻译新思想新技术的诞生/173
第III 分实践篇
第9 章数据准备/176
9.1 平行语料/177
9.2 语料获取/179
9.3 数据过滤与质量评估/183
9.4 数据处理/186
9.5 阅读材料/188
9.6 短评:浅谈数据对机器翻译的重要性 /188
第10 章训练/191
10.1 mini-batch 设置/192
10.2 学速率设置/195
10.3 随机梯度下降算法选择/197
10.4 其他参数选择/200
10.5 分布式训练/202
10.6 Transformer 训练设置/207
10.7 阅读材料/209
10.8 短评:参数设置——自动化与实验可复现性/ 210
第11 章测试/213
11.1 解码/214
11.2 解码和训练不一/218
11.3 机器翻译评测方法/ 220
11.4 错误分析/ 223
11.5 阅读材料 /225
11.6 短评:评测驱动机器翻译研究/ 225
第12 章署/233
12.1 GPU 环境下的署/234
12.2 CPU 环境下的署/237
12.3 智能端署/240
12.4 模型压缩与计算加速/244
12.5 阅读材料/245
12.6 短评:机器翻译工业署 /246
第13 章系统设计与实现/251
13.1 总体设计/252
13.2 功能设计/254
13.3 开源系统/ 257
13.4 FAIRSEQ 解析/259
13.5 阅读材料/264
13.6 短评:机器翻译开源之路/ 264
第IV 分进篇
第14 章语篇级经机器翻译/271
14.1 什么是语篇/272
14.2 语篇级机器翻译面临的挑战/274
14.3 语篇级机器翻译形式化定义/275
14.4 语篇级经机器翻译方法 /276
14.5 面向语篇现象的机器翻译评测数据集/288
14.6 语篇级机器翻译评测方法/288
14.7 未来方向/289
14.8 阅读材料/290
14.9 短评:经机器翻译达到人类同等水平了吗/292
第15 章低资源及无监督经机器翻译/296
15.1 低资源语言与资源稀缺挑战/297
15.2 低资源经机器翻译/298
15.3 无监督机器翻译/305
15.4 未来方向/311
15.5 阅读材料/312
15.6 短评:无监督机器翻译之美及挑战/ 312
第16 章融合知识的经机器翻译/315
16.1 知识与机器翻译 /316
16.2 语言学知识融合/318
16.3 非语言学知识融合/324
16.4 双语知识融合/328
16.5 内知识迁移/332
16.6 未来方向/337
16.7 阅读材料/337
16.8 短评:浅谈基于知识的机器翻译/ 338
第17 章鲁棒经机器翻译/342
17.1 鲁棒性概述/343
17.2 对抗鲁棒性/346
17.3 对抗样本生成/347
17.4 对抗训练/355
17.5 数据集/356
17.6 未来方向/358
17.7 阅读材料/359
17.8 短评:经机器翻译是子吗?兼谈其“幻想”/ 360
第18 章多语言经机器翻译/363
18.1 基本思想与形式化定义/364
18.2 多语言机器翻译vs. 双语机器翻译/365
18.3 多语言经机器翻译模型/367
18.4 训练数据采样方法/ 375
18.5 大规模多语言经机器翻译/376
18.6 多语言经机器翻译向双语经机器翻译迁移/ 384
18.7 未来方向/386
18.8 阅读材料/389
18.9 短评:多语言机器翻译之美/390
第19 章语音与视觉多模态经机器翻译/393
19.1 文本模态之外的机器翻译 /394
19.2 端到端语音翻译/ 395
19.3 视觉引导的多模态经机器翻译/ 407
19.4 阅读材料/ 417
19.5 短评:预训练技术争议与符号奠基问题/ 419
第20 章发展趋势与展望/427
20.1 展望/ 428
20.2 本书未覆盖内容/ 429
20.3 短评:科幻中的机器翻译与未来机器翻译/ 433
参考文献/439
索引/482