晚上师弟传给我两篇《中文信息学报》09年第6期的文章:东芝(中国) 研究开发中心王海峰老师的《ACL-IJCNLP 2009 评述》以及中科院计算所米海涛,赵红梅,刘群老师的《第十二届机器翻译峰会和NIST2009 机器翻译评测研讨会简介》,读后感觉写得很不错,估计有些读者还未见到原文,计划在52nlp上分别节选一部分内容,分享一下这些与会专家的感受。

         ACL-IJCNLP 2009 评述
            作者:王海峰

1  概况
  计算语言学学会( The Association for Computational Linguistics) 旗下的ACL 年会是国际上最有影响的计算语言学及自然语言处理学术会议,而IJCNLP 则是亚洲自然语言处理联合会(Asian Federation of Natural Language Processing) 的旗舰会议。2009 年,第47 届ACL 和第4 届IJCNLP的联合会议(ACL2IJ CNL P 2009) 于8 月2~7 日在新加坡成功召开,这是ACL 历史上第三次在亚洲召开(前两次分别为2000 年在中国香港、2003 年在日本札幌) 。除ACL-IJCNLP主会议外,还有一个会议(Conference) 、12 个专题研讨会(Workshop ) 和6 个专题讲座( Tutorial) 等同期举行。
  ...

2  论文
  每年的ACL 论文,尤其是主会议长文(Full Paper) ,基本反映了自然语言处理领域最新研究进展、代表了本领域最高研究水平。今年的主会议论文投稿数达到了创纪录的925 篇,其中长文569 篇、短文356 篇。被录用的长文有120 篇,录用率21. 1 %;短文被录用93 篇,录用率26. 1 %。以下着重介绍最受关注的主会议长文的情况(各项统计数据按第一作者计算) 。从地域分布来看,北美仍以56 篇论文居于领先地位,亚太地区以46 篇居第二位,其他18 篇来自欧洲,而南美等地区虽也有少量投稿,但未能被录用。从国家分布来看,美国的50 篇占有绝对优势,而中国大陆则以15 篇在世界上居于第二,其他发表论文较多的国家有日本、新加坡、德国、加拿大等。中国大陆的研究机构中,近年发表ACL论文较多的微软亚洲研究院、东芝(中国) 研究开发中心、中国科学院计算技术研究所及哈尔滨工业大学继续保持良好势头,再次分别发表多篇论文。同时,北京大学、清华大学、南开大学、苏州大学、中国科学院自动化研究所等单位也有斩获。个人方面,继去年哈尔滨工业大学博士生赵世奇以第一作者身份发表两篇ACL 主会议长文后,今年计算技术研究所刘洋博士也以第一作者身份独中两元,充分展示了我国年轻学者的实力。回顾中国大陆学者过去几年参与ACL 的情况,记得ACL 2005 时,来自中国大陆的主会议论文还只有3 篇、参会学者才仅有4 位。今天的繁荣与几年前的冷清形成了鲜明对比,这些年的长足进步实在值得欣喜。
  ...
  近年来广受重视的机器翻译(Machine Translation) 研究仍然保持大热,投稿量和论文录用数量都大幅超过其他领域。从机器翻译领域研究内容来看,解码(Decoding) 受到了比以往更多的重视,从提高解码的性能、速度到在解码器上做系统融合,都有一些很好的结果产生,而本领域推荐的唯一最佳论文候选(Variational Decoding for Statistical Machine Translation) 也是关于解码的。其他研究较多的内容还包括基于语法的翻译、对齐、评价等。值得一提的是,华人学者贡献了23 篇机器翻译长文中的11 篇(其中5 篇来自中国大陆) ,几乎占据了半壁江山。而笔者受邀担任机器翻译领域的两主席之一(另一位是The University of Edinburgh的Philipp Koehn) 、计算技术研究所刘群与笔者分别担任机器翻译分会场主席等,相信也都与华人学者在该领域的整体实力及贡献的提高有关。
  除了机器翻译,其他一些传统方向,如语义、句法与分析等也占有较大比重。而句法与分析领域更是由于最高录用比例(28. 6 %) 和2 篇最佳论文而受到关注。
  总体看来,自然语言处理领域的各个方向都处于平稳进步的阶段。其中一个值得注意的现象是,算法的时间效率问题受到了广泛关注。记得一位本领域的国际著名学者曾说过:“我对超过多项式时间复杂性的算法毫无兴趣。”姑且不讨论这句话的是或非, 但算法效率的确非常重要。ACL-IJCNLP 2009 上, Stanford 的Michel Galley、Berkeley 的John DeNero 、Google 的Shankar Kumar 等很多学者都在提高算法效率方面做了很好的工作,包括分析领域的2 篇最佳论文在内的更多论文也都讨论了效率问题。事实上,在真实应用环境下,算法的效率何止重要,它甚至是决定性的。相信在很多研究致力于提高诸如翻译质量、分析准确率、生成正确率等性能指标的同时,提高算法效率方面也一定大有可为。

3  奖项
  每年的ACL 都会颁发两个极受关注的奖项:终身成就奖(Lifetime Achievement Award) 和最佳论文奖(Best Paper Awards) 。
  终身成就奖是对曾对本领域做出过卓越贡献的学者的终极承认与褒奖,是本领域颁发的最高个人荣誉。约翰霍普金斯大学(Johns Hopkins University) 的Frederick Jelinek(注:贾里尼克)因在语音识别及机器翻译等领域的卓越贡献而获得今年的终身成就奖,其获奖演讲的题目是: The Dawn of ASR and MT。
  最佳论文则基本上代表着当年本领域最好的研究成果,也一定程度上预示着未来的发展动向。今年,各个领域主席共推选出6 篇最佳论文候选,最后,最佳论文委员会从中选择了3 篇作为最佳论文。其中,有2 篇来自传统的句法与分析领域: CMU 的Andre Martins 等人的“Concise Integer Linear Programming Formulations for Dependency Parsing”和Berkeley 的Adam Pauls 等人的“KBest A* Parsing”,另一篇是MIT 的S. R. K. Branavan 等人的“Reinforcement Learning for Mapping Instructions to Actions”。三篇最佳论文全都来自美国的一流名校,也从一个侧面反映出这些名校的确名不虚传。
  有趣的是,终生成就奖得主Frederick Jelinek和最佳论文得主之一S. R. K. Branavan 不约而同地提到了投稿被拒的往事。Frederick Jelinek 在回顾上世纪80 年代后期他所在的IBM 团队创立统计机器翻译方法的历程时提到,他们的第一篇统计机器翻译论文曾被COLING 拒稿。无独有偶, S. R.K. Branavan 在获奖感言中也提到她的获奖论文曾被先前召开的NAACL HLT 2009 拒稿,引得现场一片哄堂大笑。可见,投稿被拒并不可怕,只要坚定信心继续努力,是金子总会发光的。

4  结束语
  除了上述中国大陆学者的情况外,来自中国香港和中国台湾、新加坡、日本及欧美各国的华人学者也在ACL-IJCNLP 2009 上展示了强大实力,本届大会主席( General Conference Chair) 苏克毅、程序委员会主席( Program Chair) 之一苏俭、组委会主席(Local Organizing Chair) 李海洲等就是其中的杰出代表。笔者相信,中国及全世界华人学者的水平仍将继续提高、贡献势将持续增加、影响也必将不断扩大。

附王海峰博士简介:
  东芝(中国)研究开发中心首席研究员(Chief Research Scientist)、副所长(Deputy Director of Toshiba (China)R&D Center)、兼研究部部长(General Manager of Research Division)。王海峰博士1999年3月毕业于哈尔滨工业大学获工学博士学位,曾任微软(中国)研究院副研究员、isilk.com研究科学家(香港特区政府优秀人才计划)。主要研究方向为自然语言处理与机器翻译、信息检索、语音识别及合成等。

注:转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:https://www.52nlp.cn/acl-ijcnlp-2009-评述节选

作者 52nlp

《ACL-IJCNLP 2009 评述节选》有10条评论
  1. 我是一名正在学习自然语言处理的朋友,忘记了从哪儿链接到你的网站了,非常非常棒的信息。呵呵,顺便我点击了一下你文结束处的广告,友情赠送哦。

    [回复]

    52nlp 回复:

    谢谢!不过广告这东西也不能多点,Google也有反作弊算法的,呵呵!

    [回复]

  2. 貌似中国成为了仅次于美国的超级大国。。。

    [回复]

    52nlp 回复:

    虽然是第二,不过还是比美国少得多。

    [回复]

  3. 请问版主是哪个学校的高材生啊,我现在读硕。方向是自然语言处理。明年考博,能否给点建议啊。期待ING
    从你这里学到很多。先谢一下。

    [回复]

    52nlp 回复:

    目前在企业工作,对于考博,没有什么建议,本人也只是小硕毕业,呵呵!不过对于自然语言处理,看看这些参加ACL顶级会议的国内高校和院所大概也能了解一些了。

    [回复]

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注