主题为“开源翻译技术”的翻译技术沙龙第14期活动于2012年10月14日14:00-17:30在中科院计算所501会议室举行。共有40位翻译技术研发者、翻译行业从业者和自然语言处理技术爱好者参加了本次活动。其中,高校科研院所的参与者来自:北京语言大学、北京大学、苏州大学、中科院自动化所、中科院软件所、北京师范大学、东北大学、中科院计算所(东道主)等;企业方面的参与者来自:明博智创、知识产权出版社、优酷网、微软、去哪儿网、莱博智、金山软件、网易有道、太科石油信息咨询、百度、橙译中科、语智云帆等。
在参会嘉宾分别进行简短介绍之后,沙龙进入特邀嘉宾发言阶段。本期特邀演讲嘉宾有:中科院计算所骆卫华老师:介绍计算所机器翻译研发;百度何中军博士:介绍百度机器翻译研发;东北大学肖桐老师:介绍东北大学NiuTrans开源机器翻译系统;北京大学俞敬松教授:介绍开源翻译技术与翻译教学;语智云帆胡日勒博士:其他开源翻译工具简介。
计算所骆老师首先做了题为《面向应用的机器翻译》的报告,介绍了机器翻译的基本原理和计算所(及橙译中科公司)机器翻译的主要研究方向。除了深入基于句法的翻译模型研究之外,计算所积极探索机器翻译的实用应用方向,主要有:新闻、专利、科技文献、外事文书、口语、名片、菜谱等,并在小语种翻译(韩、泰、维、藏、蒙、日等)方面具备一定的积累;产品方面,目前提供的有:
开放API、双语句子自动对齐、编辑后处理、云翻译资源库;骆老师还总结了机器翻译应用中的关键问题: 双语语料、未登录词、特殊语言现象、语言非典型用法、译后编辑与翻译模型的融合、翻译模型的压缩与优化、分布式并行运算平台等。
第二位发言的是百度机器翻译组的何中军博士。何博士介绍了百度在线翻译、百度英文论文写作助手、机器翻译API等产品。与会者对百度机器翻译研发非常感兴趣,就语料规模、响应性能、多引擎融合、评测、与谷歌翻译对比等问题与何博士进行了热烈的讨论。对于开源机器翻译系统,何博士的观点有二:一是开源系统虽然能够加快开发,但往往带来“不求甚解”,反而不利于学习者和研究人员深入理解,希望利用开源系统的学生和开发者要深入源码;二是开源系统给互联网带来了大量的语料噪音,给基于互联网的后续研发带来了很大的麻烦,希望从业人员要对产出的内容负起责任。
第三位发言的嘉宾是东北大学的肖桐老师。肖老师首先介绍了东北大学NLP组的历史和团队现状,然后具体介绍NiuTrans开源机器翻译系统的细节。NiuTrans开源至今已有550研究机构和个人下载使用,它是为数不多的支持绝大多数主流SMT模型的系统。在NiuTrans开发过程中,开发团队成员付出了非常大的努力——要做的不止是开发,还有技术支持,手册撰写,WEB维护等一系列繁琐的事务。小老师的开源观点:开源机器翻译系统主要用于学习和研究,也可以用于实际系统开发,但“裸奔”绝对不行。即系统搭建只是起步,调优才是关键!深入理解机器翻译系统必不可少。随后肖老师回答了大家很多关于NiuTrans的细节问题,自动化所陈振标老师给NiuTrans提出了不少实用的改进建议。
之后发言的嘉宾是北京大学语言信息工程系俞敬松教授。俞老师首先介绍了北京大学语言信息工程系的基本情况,包括计算机辅助翻译、文本翻译与技术写作、互联网数据挖掘(即原来的自然语言处理)三个专业方向。对于在与教学相关的开源技术应用,俞老师要求学生(尤其是NLP方向的)一要“求甚解”,不单要会用,还要深入理解,而且不能满足于算法和论文,要有动手编程实现的能力;二要“做贡献”,发现错误要能主动去fix。对于开源翻译工具,俞老师提出:1)可以更多关注一些BS结构的系统;2)格式问题是翻译工具应用的一大障碍,需要下大力气去解决;3)机器翻译应该多研究译员的行为,让人的思维可以对机器翻译产生干预。俞老师认为,机器翻译开发者应该注重MT的实际意义,面向译员的MT应该重视译员的最核心的需求。目前常见的情况是MT开发人员多数不了解译员在做什么。
最后一位发言的嘉宾是来自语智云帆的胡日勒博士。胡博士为大家总结了十四款开源翻译软件(事先在 @中文翻译技术沙龙 微博上已发布),从开源软件的不同协议对应的不同权利和责任说起,对各软件逐一进行了简要介绍。所涉及的软件除了前面讨论较多的机器翻译系统(moses, NiuTrans)之外,更多的是翻译记忆类的CAT工具(如OmegaT)、翻译记忆服务器TM Server(如OpenTM2 | TinyTM)、翻译管理系统 TMS(如GlobalSight)、机器翻译支撑环境(如m4loc)、本地化格式处理工具(如POedit)、翻译支持组件集合(如Okapi Framework Tools)等。其实机器翻译只是翻译技术的一个方面,在实际翻译生产中,各种各类的技术和工具发挥着重要的作用。大家应该多关心实际生产中的需求。
中间休息之后,活动转入互动环节。语智云帆魏勇鹏总经理主持互动环节,首先邀请太科石油、知识产权局、莱博智等公司代表从客户方和服务方角度谈如何看待机器翻译和辅助翻译技术。
太科石油吕经理的观点如下:
1)翻译公司有大量的语料,但是其整理是一个费时费力费钱的过程。2)绝大多数翻译公司都有一条“纪律”,就是不许用机器翻译!3)翻译只是翻译公司所做工作的其中一部分,工作流程中还有许多其他的环节和细节处理(如格式转换、排版、文件拆分、字数统计等),这些工作可能占据将近一半的时间;3)要让译员接受机器翻译,需要彻底了解机器翻译的原理,思维方式必须有翻天覆地的变化,不是短期内可以实现的。机器翻译发展的方向是什么,翻译公司该怎么去适应,这是太科参加翻译技术沙龙活动希望了解的内容。
知识产权局王先生:
在知识产权出版社从事信息抽取方面的工作,与机器翻译有相通之处。认为目前译员对机器翻译的期待远高于现有机器翻译系统能达到的水平。所以机器翻译还需要大幅度提高翻译质量。同样关心机器翻译发展的方向。
莱博智任先生:
介绍了莱博智机器翻译应用的情况。基本流程包括客户需求分析--原始文件获取--领域匹配--模型训练--自动翻译--交付或译后编辑等。
针对大家最为关心的机器翻译发展方向问题。骆老师、胡博士简要介绍了9月份在西安理工大学举办的第八届全国机器翻译研讨会(CWMT2012)的情况:会议议题涉及机器翻译理论方法、机器翻译应用、语音翻译、少数民族语言与机器翻译、机器翻译评测等;会议期间,百度、微软亚洲研究院、自动化研究所、东北大学、专利信息中心等单位展示了最新研究成果和机器翻译系统。CWMT会上,大家普遍认为新的、复杂的机器翻译模型离应用还比较远,如何将机器翻译与翻译流程相结合,并找到合适的商业模式,是当前机器翻译发展的重要任务。会上还探讨了基于语义的机器翻译发展方向。
嘉宾们还针对机器翻译的商业模式进行了讨论。语智云帆魏总提出,针对客户的需求进行引擎定制,是目前可行的一种模式,国外已有采用这种模式的商业案例。不过,出于语料数据的安全性和业务流程的可控性考虑,客户通常希望能够对翻译引擎有完全的控制力,但由于机器翻译系统的复杂性,以一般客户的技术能力又很难掌握。这就要求引擎提供商能够提供“点对点”、“手把手”的支持,售后服务的成本非常高。
中国译协本地化服务委员会秘书长崔启亮老师发表了对机器翻译的观点: 第一,机器翻译研究是热点,但研究与应用要适当分工,机器翻译要走出实验室,走向商业翻译应用。第二,机器翻译的应用领域应该多元化,例如信息情报检索不要求高的翻译译文质量。第三,仅靠机器翻译不能解决译文质量问题,还需要结合译前预处理,包括翻译记忆,术语,标签TAG保护,特殊规则,译后人工校对。崔老师呼吁作为程序员的MT开发者和作为用户的外语翻工作者(场外关注沙龙并进行实况转发的 @一本词典 认为这两类人“似乎活在两个不同的世界里”)应该互相关注,多多交流,了解实际翻译需求,希望机器翻译关注更多自身具有优势的领域,注意拓展多元化的商业模式。
太科石油吕经理进一步补充:目前市场上主流的辅助翻译产品都是国外开发的,很多方面并不适合国内翻译行业的需求。希望国内的机器翻译、辅助翻译开发者联合起来,合理分工及协作,为国内翻译行业打造更加适用的翻译工具。语智云帆魏总也倡议,希望对开源翻译技术有兴趣的研究者和开发者能一起进一步调研、分析、改进、整合各种开源翻译技术资源,将技术转化为真正的生产力。
最后,参加活动的部分嘉宾合影留念,本次沙龙活动圆满结束。