统计机器翻译发展到目前为止,我觉得最主要的两个里程碑式的工作应该是:一是Brown等在90、93提出的统计机器翻译框架及其数学基础;二是Och等在2002年提出的基于最大熵模型的统计机器翻译框架。之所以这样说,主要是因为他们为统计机器翻译奠定了良好的理论基础,这使得其他学者可以在这些框架之下进行大量的研究实践工作。但是,在经历了理论提出与相应的快速发展之后,统计机器翻译慢慢步入了“小打小闹”的修补阶段。当前的统计机器翻译一方面无非是在Och等最大熵模型翻译框架基础之上探索加入新的特征以提高机器翻译系统翻译质量,另一方面就是寻找与语言本身特点结合的切入点。如果没有新的理论方法的提出,统计机器翻译似乎要步入举步维艰的阶段。
当然,统计机器翻译除了要关注理论方法的创新外,其对资源的依赖尤其是平行语料库的依赖尤为重要。在理论方法暂时无非寻求突破的时候,关注资源的建设尤其是平行语料库的建设是非常有实际价值的。除了借助于传统的人工翻译录入的手段构建平行语料库的方法外,当前的主流语料库构建方法已经纷纷采用Web语料库自动获取技术,毕竟网络世界的欣欣向荣,其所创造的语言资源是异常丰富且日新月异的。在这样的资源宝库下,如果能寻求一种合理的挖掘技术,其所节省的人力、物力、财力是非常可观的!
当前的几个主流的Web 平行语料库采集系统有:加拿大蒙特利尔大学的研究者聂建云开发的系统PT Miner(Parallel Text Miner,1999),美国马里兰大学的研究者Resnik开发的系统STRAND(Structural Translation Recognition, Acquiring Natural Data,2003)BITS(Bilingual Internet Text Search, Ma and Liberman 1999),澳大利亚莫纳什大学陈纪淞等人开发的PTI(The Parallel Text Identification System,2004),微软亚洲研究院的吴克等人开发的WPDE(Web Parallel Data Extraction,2006)。
这些系统一般通过搜索引擎获取候选对齐网页,然后利用相应的分析和对齐技术进行篇章、段落及句子对齐,从而最终获得相对粗糙的句子集的平行语料库。这样的技术对于汉英等主流语言问题不大,因为它可以获得大量的候选对齐网页,这样所产生的实际平行语料库的规模也是可以预期的。但是,对于小语种尤其像国内的少数民族语言,这项技术似乎还只有理论意义,其实践价值不大,毕竟,少数民族语言相对于汉语或英语等来说,其在网络上存在的数据是少之又少的。
关于汉语与少数民族语言机器翻译及资源建设的问题,我觉得可以借鉴欧盟的做法。欧盟有23种官方语言,无论制定什么文件,都必须有相应的语言文件,所以欧盟对于语言资源的建设和语言间的机器翻译技术是非常重视的。对于如何评价多语言性重要性问题,他们列举了以下三条原因:
首先现在全球社会越来越复杂,让越来越多的个人想要去寻根、寻找他们自己的文化根源,最重要的一点就是他们自己的语言;第二就是欧盟有很多世纪的征战,语言是文化身份和反对外国入侵的一个重要工具;第三个原因就是市场经济的发展,这个使得生产商不得不去进行本地化他们的产品和服务。
与欧盟类似,对中国来说,多语言(汉语与少数民族语言)资源的建设与保护问题,上述三条原因完全可以对号入座。但是,与欧盟不同,我们在多语言资源建设上还非常落后。
由于欧盟有大量的工作需要翻译,所以对翻译技术的需求非常旺盛。他们除了把欧洲委员会一级和二级法规的所有数据都提供给研究者和软件公司使用外,还在这些数据的基础上建立了世界上最大的平行语料库,并且完全开放供研究者使用,这样一方面促进了机器翻译技术的研究,另一方面可以反过来利用这些好的机器翻译方法,这对于欧盟本身的翻译工作是有极大推进作用的。
需要说明的是,欧盟目前所采用的机器翻译技术是建立在海量平行语料库基础之上的翻译记忆技术,而不是纯粹的机器翻译方法,这也从另一方面说明当前比较成功的商业化产品是辅助翻译技术,而纯粹的机器翻译产品还不能应付大量的翻译需求。但是,从欧盟对机器翻译技术的重视以及其对平行语料库构建的支持来看,机器翻译技术必将越来越受到重视与肯定!
我们目前对于多语言资源的建设与多语言间的机器翻译技术的支持无疑是非常有限和落后的。对于汉语与少数民族语言间的机器翻译及资源建设问题,我觉得从以下三个方面入手比较合适:第一,以汉语为中间语言,尽快构建一个多语言间的平行语料库,无论采用什么技术和方法构建,资源越大越好;第二,在不能做到大而全的情况下,先重点关注几个重要领域的平行语料库构建,如文化领域、农业领域、政府文献领域,这与国计民生息息相关;第三,加强对多语言间的机器翻译技术的研究的支持,尤其是汉语与少数民族语言间的翻译技术,所面临的问题比较复杂,其所需要的支持力度更大。
如以上三个方面可以做到,可以继续学习欧盟的做法,开放资源库供研究者使用,并且在这个资源库的基础之上构建公共的机器翻译平台,为多语言间的平台共享提供合适的机器翻译引擎!
注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn
本文链接地址:https://www.52nlp.cn/statistical-machine-translation-and-resources-building-thinking/
对此非常有兴趣~(本人是坚定的开源支持者)
[回复]
admin 回复:
15 2 月, 2009 at 23:05
欢迎常来看看!
[回复]
网上可以得到的用于SMT训练的中英双语语料库,除了刘洋在《利用现有软件构建统计机器翻译系统》提到的1500句,还有其他更大的吗?要推动SMT研究,语料库是基础,国内是否有类似Brown这样的机构,收集整理并出售语料库?
[回复]
52nlp 回复:
3 4 月, 2010 at 21:59
可以看看"中文语言资源联盟”,类似于国外的LDC:http://www.chineseldc.org/
[回复]
建议52nlp站点上建一个语料上传共享板块,制定简单的格式规范,大家将手头的双语资料上传,一人贡献几百句应该不成问题,海纳百川,没准建成一个几十万句的语料库,对nlp爱好者善莫大焉,既可以用于SMT研究,也可以用于英语学习、开发英语写作辅助工具之类的软件。
[回复]
52nlp 回复:
5 4 月, 2010 at 22:35
呵呵,这个可能非我个人的能力所及,另外语料库这个东西涉及版权,拥有语料库的读者可能也不太方便共享。
最好国内能出现一个类似欧洲语料库那样的完全免费共享的语料库,任何人都可以研究使用,这对于推动汉英统计机器翻译的确会有很大好处的,毕竟语料库是nlp爱好者入门的必须跨越的一个关口。
[回复]