全书整体上分为4个部分,共12章。
第一部分为概述,介绍机器翻译技术的整体面貌,发展历史以及全新进展。这一部分还包括机器翻译所需要的基本知识,包括语言模型、句法结构和机器翻译评测等。
第二部分全面系统性地介绍统计机器翻译的原理和方法,内容覆盖从基本的IBM模型,短语结构模型,层次短语模型到基于语言学句法结构的统计翻译模型。其中会穿插介绍常见的语言模型,翻译模型和调序模型,最后集中讨论统计翻译模型的训练和调参方法。
第三部分内容涵盖全新的神经机器翻译技术。这部分以RNN/LSTM等自然语言相关的深度学习基础技术开始,详细介绍基于神经网络的语言模型和联合模型在机器翻译中的应用,以及全新的基于编码-解码和注意力模型架构的神经机器翻译的具体方法。
第四部分是机器翻译的应用,一方面通过汉字输入法,信息检索的查询转换等典型任务介绍机器翻译的原理和方法如何应用到更广阔的场景中,另一方面则尝试通过具体的示例,演示如何构造一个基础的神经机器翻译系统,使读者可以对如何构造一个翻译系统有具体的认识。
本书可作为从事或希望从事“机器翻译”工作的学生和工程师的自学教材,将配套丰富的开源代码和案例视频,使读者学完本书就能上手做项目。