MIT人工智能实验室的《如何做研究》建议阅读本领域中最本质的几篇论文:“如果你对AI的某个子领域感兴趣,向该领域的高年级研究生请教本领域最重要的十篇论文是什么”。阅读经典论文,对于了解感兴趣的领域非常重要。而关于统计机器翻译,最经典的几篇论文又是什么呢?以下是我根据自己的经验总结的几篇经典论文,如有遗漏,欢迎补充。
1.A Statistical Approach to Machine Translation
简称Brown90,这是统计机器翻译的奠基之作,是了解统计机器翻译基本思想的必读,文章中最主要的思想是把机器翻译看成是一个信息传输的过程,用一种信源信道模型对机器翻译进行解释。另外文章主要是对统计机器翻译三部分(翻译模型、语言模型及解码)的宏观介绍,涉及的数学理论并没有过多的详细解释,因此读来比较轻松。
2. The Mathematics of Machine Translation: Parameter Estimation
简称Brown93,主要针对Brown90中翻译模型的参数估计进行了详细的数学解释,需要一定的数学基础和耐心,不过Kevin Knight 99年JHU(约翰霍普金斯大学)夏季机器翻译研讨班上的《A Statistical MT Tutorial Workbook》对Brown93用例子及通俗的方式进行了讲解,读来比较容易理解,值得对照阅读。
3. Discriminative Training and Maximum Entropy Models for Statistical Machine Translation
这是统计机器翻译领域中传奇人物Franz Josef Och 在2002年ACL会议上发表的论文,他提出了基于最大熵模型的统计机器翻译方法,是对Brown信源信道模型的极大扩展,开阔了统计机器翻译的视野,并为研究者提供了一个融合其它知识到统计机器翻译中的研究框架,这篇论文获得了当年的ACL最佳论文奖。
4. Statistical Phrase-Based Translation
这是统计机器翻译领域另一个大牛Philipp Koehn 2003年与Och合著的文章,已涉及了具体的方法而不是理论框架:基于短语的统计机器翻译。之所以选在这里,与Koehn 2004年发布的具有广泛影响力的解码器Pharaoh不无关系,Pharoah现在已被Koehn领导的另一个开源项目Moses所取代。
5. BLEU: A Method for Automatic Evaluation of Machine Translation
这是目前用得最广的机器翻译自动评测方法BLEU的原始论文,之所以选在这里,因为评测方法的好坏对于机器翻译的研究具有很大的影响,BLEU理应作为评测方法的代表入选。
统计机器翻译中其实还有好多经典文献,恕本人学识有限,这里只将自己能力范围之内的重要文章放在这里,欢迎大家探讨和补充!这些文章都可以在Google中搜到,所以这里就不附下载连接了。
注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn
本文链接地址:
https://www.52nlp.cn/statistical-machine-translation-classic-literature/
可以补充一个:Hierarchical Phrase-Based Translation (Chiang, 2007).
这也是一篇SMT史上有划时代意义的论文。作者在之前基于短语的模型(Philipp et al., 2003)的基础上构建了一个基于句法的模型,同时也编了一个新的解码器Hiero(作者是用Python实现的,目前并没开源,开源的版本是用Java实现的,叫Joshua。它们的工作原理是一样的)。新系统在翻译性能上较前者又有了很大的提高。
[回复]
admin 回复:
15 7 月, 2009 at 19:19
Thanks a lot!
[回复]
David Chiang的Hierarchical Phrase-Based Translation能用中文翻译下么?
[回复]
52nlp 回复:
24 3 月, 2015 at 14:55
很多翻译为“基于层次短语的翻译模型”,可以google一下
[回复]