08年11月27日至28日,我在中科院北京自动化所参加了第四届全国机器翻译研讨会,两天的会议给我留下了深刻的印象,这里写一点自己的感受。
本次会议主要分为两个部分:15家参加机器翻译评测的单位评测报告和13篇技术论文报告。总体感受:新技术层出不穷,把握潮流是关键!
首先是评测部分,除了传统的机器翻译结果的自动评测外,本次会议在国内首先采用了目前国际上非常流行的系统融合评测,系统融合指的是把不同单位系统的翻译结果拿到一起利用系统融合技术产生更好的翻译结果。Moses中的混合网络解码(confusion network decoding)就可以用来做系统融合。
至于评测中使用的自动评测标准,除了使用成熟的BLEU、NIST等评分手段外,又首次使用了微软亚洲研究院的WoodPecker评测和蒋伟(David Chiang)在08年提出的针对BLEU缺陷改进的评测方法BLEU-SBP。WoodPecker与北大愈士汶老师90年代提出的基于检测点评测机器翻译结果的方法有关,不同的是愈老师提出的方法要人工构造检测点,而微软则提出了自动抽取检测点的新方法;BLEU-SBP方法是蒋伟在使用BLEU时发现缺陷后进行改进的,刘群老师总结说“平时使用时我们也发现了BLEU的这个缺陷,但是却没有进一步去思考为什么”,这可能就是我们与蒋伟的差距吧!而事实上,计算所在国内做得已非常好了!乃至在刘洋代表计算所做技术报告后,厦门大学的代表陈毅东老师作报告时首先向计算所致敬,觉得计算所进步很快。
关于计算所,我也在这里提一下。计算所在本次机器翻译评测中分别使用了四个系统:Silenus(基于压缩森林的树到串翻译系统),Bruin(基于最大熵括号转录语法的翻译系统),Change(基于层次短语的翻译系统),Mencius(采用部分匹配策略的基于短语的翻译系统)。这些系统有一个共同的特点是:模仿+创新,有模仿Moses系统的,也有模仿蒋伟的Hiero系统的,但是在模仿的基础上,计算所也加入了自己的一点创新,因此这次评测报告中,计算所的几个得分也比较靠前。另据刘洋介绍,他们的Silenus系统已经具有了国际领先的水平,在ACL08中有这个系统的一篇(Forest-Based Translation)文章介绍,并且目前许多国际同行都在跟踪计算所的这项技术。
从各家单位的评测报告中,Moses系统被提到的次数比较多,可见Moses系统的影响力非常之大。哈工大、自动化所、东北大学等单位等都直接或间接使用了Moses系统的翻译结果作为正式结果提交。因此Moses还是非常值得继续研究的,但是Moses解码时的时空复杂度仍是一个比较大的瓶颈,东北大学使用32G内存的机器进行训练,在翻译4000多句测试集时,也使用了大约1个小时。自动化所也利用了16G内存的机器进行训练。当然,这与目前汉英平行语料库的规模有关。这次会议组织者提供的封闭测试用的语料库约87万句对,而各家单位在进行开放测试时所使用的汉英句对都是百万级别的,例如自动化所用于本次会议新闻翻译模型的训练规模约490万句对,语言模型训练规模是约760万句。
本次会议的另一个特点是会议的名字不再是以前的“统计机器翻译研讨会”,而改成“机器翻译研讨会”,目的是参加评测的单位系统不再局限于统计机器翻译系统,而是包括基于规则的系统和基于实例的系统。因此,参加评测的单位中有几家提交了基于规则的机器翻译结果,比较一致的是,这几家单位基本上都是商业化的公司,包括国外老牌的机器翻译公司SYSTRAN,反而是基于统计的机器翻译系统还没有商业化,多是是学术机构的科研成果。正如SYSTRAN公司的代表杨进女士所说,相对于基于语料库的机器翻译系统,基于规则的系统使用的资源更少(他们在参加本次机器翻译评测时基本上没有使用训练语料库),更灵活(如果要把机器翻译系统用于PDA等嵌入式设备中,基于规则的系统是首选),不过SYSTRAN公司目前也在跟踪统计机器翻译的最新技术,如统计机器翻译领域的领军人物之一Philip Kohen目前也是SYSTRAN公司的顾问。
本次会议最让人感动的一家单位是“西安汇申软件有限公司”,这家公司04年成立,历经4年,耗资700多万,才研制了一个基于规则的机器翻译系统参加这次机器翻译评测,可以说是唯一一家没有项目支持和国家背景的私营企业。而他们的老总是一位搞外贸业务的商人,由于平时外贸生意有很大的机器翻译需求,因此投资建立了这家公司。虽然目前还没有盈利甚至没有盈利模式,但是仍然继续坚守机器翻译领域,倍受尊重。这也从另一方面说明了目前很多商业公司都在关注机器翻译,如在本次会议中,阿里巴巴,网易公司、日本富士通公司都派代表旁听了会议。
这次会议的参会人员可以划分为三类:老一辈的机器翻译工作者,如知网的董振东老师将他们这一帮人称为“老革命”;中青年机器翻译工作者,如刘群、宗成庆老师;小字辈学生。董老在会议中非常深情的提出了一个问题,他说这个问题是他几十年机器翻译生涯中不断问自己的,就是什么时候机器翻译系统是翻译工作者或者普通老百姓的必备装机软件,就像杀毒软件一样。这个问题与之前一位翻译工作者质疑SYSTRAN甚至机器翻译系统的问题有关。对于这个问题的回答,我感觉老一辈工作者比较“悲观”,而中青年工作者则比较“乐观”,如刘群老师,吕雅娟老师在回答这个问题时,都提到了针对特定领域的机器翻译系统都达到了不错的水平,如计算所的专利翻译系统客户比较满意。
Philip Kohen的讲座是在28号早上9点到11点,他是27号晚上才到北京的,非常有趣的现象是头一天坐不满的自动化所大会议室突然间坐满了,可见Kohen的影响力之大。他的讲座算是普及统计机器翻译的背景知识以及介绍Moses的现状,感受比较深刻的是Kohen具有很强的开放姿态。另外,从他的报告中以及本次会议的一些报告中,可以看出,基于句法的统计机器翻译研究应是现在与未来研究单位重点关注的一个方向。
注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn
本文链接地址:
https://www.52nlp.cn/cwmt2008-experience/
这个会我也去听了,呵呵。我想之所以目前商业产品还是规则系统占主流,与统计翻译“不管好坏总给你一个结果”情况有关。同样的句子,翻译错一个标点
翻译错一个数字,翻译错一个中心词,也许BLEU的表现都是一致的,而人看来差异却很大。付费用户更不能忍受吧。
西安汇申确实让人敬佩,做这一行的人都知道这里面的辛苦。计算所的刘群老师以前也是做规则翻译的,后来毅然投入统计的行列,现在成绩也很不错。
我还是相信上一届研讨会中一位老师的话,数据规模不断扩大,总是有个头的(无论是规模本身,还是计算能力本身),到那个时候,人们就必须要安下心来,研究算法了,呵呵。
[回复]
admin 回复:
2 3 月, 2009 at 10:38
没参见过上一届研讨会,不过很同意这位老师的观点。印象中Systran的杨进女士说他们在NIST人工专家的评测中成绩比较好,这也说明了基于规则的方法在可读性上更人性化!不可否认BLEU评测对于统计机器翻译的推动作用,但是目前大家都是围绕着如何提高BLEU来做文章,有“急功近利”之嫌,这也导致SMT的结果有些时候更侧重于机器而不是真正的用户了!
[回复]
有些问题确实是统计的办法无法解决的,比如歧义消解问题等。如何结合好专家知识与计算机的计算能力是一个关键。
[回复]