最近在做毕业论文,又回头仔细阅读统计机器翻译(SMT)的相关论文。重读经典的过程发现了一些当初读的时候根本无法体会的东西,于是计划写一些心得感受,啰嗦之处,请读者见谅。本周计划写三篇关于Bown90的系列文章:远见卓识,统计机器翻译与语音识别,强大的作者阵容。

  1990年,IBM华生实验室(IBM T.G. Watson Labs)的Peter F.Brown等人在计算语言学协会主持的权威杂志《Computational Linguistics》上发表了统计机器翻译的奠基之作:《A statistical approach to machine translation》(简称Brown90),这篇文章系统的阐述了80年代末期他们将统计方法应用于机器翻译的研究框架及实验结果,从此开辟了统计机器翻译研究的崭新时代。
  今天,当我们重新审视这篇文章的时候,发现其第7节“Plans”里所描述的研究计划,为之后20年来的SMT研究提供了很好的思路。目前SMT百家争鸣的研究现状也逐一印证了其远见卓识:
  1、大规模语料库的需求:受限于当时计算机的能力,虽然有百万级的Hansard语料库可用,但Brown90的实验最多采用了117,000法英句对用于训练基于词的翻译模型,570,000英语句子用于训练2-gram语言模型。所以使用更多的语料库和采用3元语言模型是其需要解决的问题。而今天,用于训练翻译模型的汉英语料已是百万,千万级句对;用于训练英语的单语语言模型的语料4元,5元已常见。而Google提供给LDC的n-gram语言模型的规模约包含1万亿个单词(The n-gram counts were generated from approximately 1 trillion word tokens of text from publicly accessible Web pages),其自身在SMT系统中所采用的语言模型规模应该比这个还庞大。
  2、基于短语的翻译模型的重要性:Brown90指出了基于词的翻译的缺陷,敏锐的指出了基于短语的翻译的优点——局部连续短语翻译的一致性保持较好。而自02年统计机器翻译领域的两大传奇人物Philipp Koehn和Franz Josef Och合著的论文《Statistical Phrase-Based Translation》发表后,标志着基于短语的统计机器翻译方法成为SMT的主流。
  3、形态分析方法的必要性:Brown90指出在其实验里对法语单词(如va,vais,vont)和英语单词(如tall,taller,tallest)单独作为一个未分析的单元对待,而没有考虑其联系,正在开展将形态分析的方法引入到法英SMT的研究。而今天,学者们提出了很多将形态分析引入到SMT中的研究方法,特别是当前最流行的基于短语的统计机器翻译系统Moses(Philipp Koehn领导开发,完全开源)中提出的Factored Translation Model方法,为将形态因子融合到SMT中提供了很好的研究框架和实验平台。
  4、句法(语法)分析的探讨:Borwn90最后指出在其初步的SMT实验中将句子视为无结构(structureless)的单词序列,因此考虑构造基于句法的统计翻译模型。而在2006年的NIST机器翻译评测中,南加州大学的基于句法的统计机器翻译系统在封闭测试中超越Google的基于短语的统计机器翻译系统(Franz Josef Och领导),标志着基于句法的统计机器翻译系统与基于短语的统计机器翻译分庭抗礼的时代来临。可以预期,基于句法的统计机器翻译方法将越来越受到学者们的重视,是SMT研究的大势所趋。
  Brown等此后围绕SMT研究所形成的另一篇论文《The mathematics of statistical machine translation: parameter estimation》在1993年发表(简称Brown93),主要针对Brown90中翻译模型的参数估计进行了详细的数学解释,提出了5种复杂程度依次递增的IBM统计翻译模型,并给出了完备的数学描述,对此后的SMT研究影响深远,堪称SMT史上的经典之作。
  但是,对于以上4点的研究,Brown等并没有形成很好的研究成果,其SMT研究持续仅到1994年,以最后一篇论文《The Candide system for machine ranslation》为标志(此时Brown本人已离开IBM),据说原因是IBM撤去了对SMT研究经费的支持。而今天,无论从学术界(各大学,研究机构)还是工业界(微软,google等)对SMT的重视程度来看,IBM当年撤去对Brown等人的SMT研究经费理应是其一大败笔。

Google语言模型详细资料请参考:http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html

注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:https://www.52nlp.cn/the-foresight-of-smt-classic-brown90/

作者 52nlp

《SMT经典再回首之Brown90:远见卓识》有2条评论
  1. 在统计机器翻译领域,Peter F. Brown是开山之组,他的贡献自不必说。Franz J. Och是其后的巨人。Och的主要贡献是:(1) 把判别模型引入机器翻译,从根本上取代noisy-channel模型而成为目前的标准模型框架。(2) 简化了基于短语的模型。注意,他不是提出者,CMU的Yeyi Wang在97年就提出类似于IBM模型的短语模型,同样基于EM算法。由于复杂度过高,Och引入了相对频度,这是Och的一个大贡献,极大降低了参数估计的复杂度。(3) 开发并发布GIZA++。Och在这方面的学术贡献很少,只是重新实现Brown的工作,但是实际价值极大。Kevin Knight是机器翻译界公认的领袖人物,不过他的主要贡献是领导并培养了一批知名学者,如Philipp Koehn就是他的学生,他以第一作者发表的文章并不多。David Chiang是非常重要的一位学者,他的贡献是把机器翻译从平面结构建模引向层次结构建模。相对于以上几位,Philipp Koehn在学术上的贡献相对小得多(至少没有发表过Computational Linguistics论文),主要是词汇化权重、grow-diag-final和factored model,但这些都称不上重要贡献。Koehn最突出的是推广能力,先是Pharaoh,然后是Moses,Koehn使得大家更容易接触到真实的统计机器翻译系统。

    [回复]

    admin 回复:

    非常感谢您的总结,这方面我把握的不足,学习了!

    [回复]

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注