Google Research Blog前几天出了一篇文章“Poetic Machine Translation”,介绍的是Google的机器翻译学者对于“诗歌”进行尝试性的机器翻译,效果比预想要好,相关的研究成果在今年的EMNLP 2010会议上的发表了一篇论文,这个会议这几天正在举行。
先不讨论目前的机器翻译水平,单说“诗歌翻译”,恐怕也不是一般的翻译工作者所能应付的工作。用机器翻译来解决“诗歌翻译”,Google的这些学者也忒牛了。不过这些学者也很清楚“诗歌翻译”的难度:
Translating poetry is a very hard task even for humans, and is clearly beyond the capability of current machine translation systems.
但是出于“学术好奇心(academic curiosity)”,他们还是尝试了一下,效果比预想的要好,于是,可以发paper了。
我也很好奇他们到底是怎么做的,于是找来了这篇EMNLP 2010的论文:“Poetic” Statistical Machine Translation: Rhyme and Meter。
唉,还是“统计机器翻译”,还记得《机器翻译与微软对联》吗?看来统计机器翻译这些年虽然没有办法取得一个大突破,但是仍然可以“剑走偏锋”的。
由于不太明白英文诗歌的“Rhyme and Meter”,我先Google了一下相关资料,找来一篇《英语诗歌的韵律(metre)英诗节奏(Rhythm)》,不过还是看得不太明白,所以也没有仔细的看EMNLP上的这篇论文,不过“Rhyme and Meter”是这篇文章的核心:
The value of preserving meter and rhyme in poetic translation has been highly debated. Vladimir Nabokov famously claimed that, since it is impossible to preserve both the meaning and the form of the poem in translation, one must abandon the form altogether. Another authority (and for us computer scientists, perhaps the more familiar one), Douglas Hofstadter argues that preserving the form is very important to maintaining the feeling and the sound of a poem. It is in this spirit that we decided to experiment with translating not only poetic meaning, but form as well.
利用统计机器翻译做“诗歌翻译”,不仅仅翻译的诗歌意思,还尽量的保留了诗歌的形式,有兴趣的读者可以仔细研究一下。
英文原文链接见:
http://googleresearch.blogspot.com/2010/10/poetic-machine-translation.html
注:转载请注明出处“我爱自然语言处理”:www.52nlp.cn
本文链接地址:https://www.52nlp.cn/追忆大师贾里尼克
国人搞研究就是缺乏这种学术好奇心(academic curiosity)啊
[回复]
52nlp 回复:
13 10 月, 2010 at 23:57
不过也不能一概而论的,呵呵!
[回复]
还是很有意思的 🙂
[回复]
52nlp 回复:
22 10 月, 2010 at 08:39
嗯,确实有点意思!
[回复]
他们还是尝试了一下,效果比预想的要好,于是,可以发paper了。
-----------------------
发paper如此得水到渠成哈,一直觉得发paper很难的说...
[回复]
52nlp 回复:
23 10 月, 2010 at 23:41
难易还是相对的,对于Google这些研究员还是可以这么说得!对于我们这些“毛毛虫”,还是要另当别论的!
[回复]
sigh, 和微软对联同理
[回复]
52nlp 回复:
29 10 月, 2010 at 09:08
同理的原因在于其利用了“统计机器翻译”,呵呵。
[回复]
rydeOnYa 回复:
29 10 月, 2010 at 19:46
对的. 关注你主页很久了. 可以说是你的博客领我进nlp的. 谢谢了先, 先问: 您做过web挖掘双语语料库的工作么? 我现在遇到个问题, 句子对齐的时候, 我不能定义一些参数
1:1, 0.9意思是说:1句源语言句子 对上1句目标语言句子的概率是0.9. 我觉得这个如果只按照人工设置的话,会很痛苦, 而且需要人工的跑很多次,来取得最好的值.
而且肯定不只限于1句对1句的情况
不知道,见多识广的您,是不是有相关方面的了解,能提供分paper或者一些意见
谢谢
[回复]
52nlp 回复:
30 10 月, 2010 at 10:25
涉及过,不过时间有点长,有点忘了。印象使用了两个对齐工具:微软研究院的基于统计方法的对齐工具和LDC基于词典的Champollion句对齐工具。貌似前者的这个概率是个很好的经验值基本不用调试的,我有点忘了,不过效果还不错!后者如果有个小词典,也很理想。双语语料库对齐基本上最后只保留1:1的结果,其他的情况基本可以抛弃了。
这两个工具都有相应的论文,我手头好像没有,Google一下问题应该不大。另外,MSRA在这方面也有很好积累,可以多多利用的,呵呵。
你文中提及的GOOGLE的链接没法打开,请问有什么方法访问到吗?
[回复]
52nlp 回复:
3 11 月, 2010 at 20:50
这个需要翻墙,免费的方法很多,自己Google一下吧,呵呵!
[回复]
博主,你好。我平时经常光顾您的网站,从中学到了很多。最近我在学习topic model的东西,希望找一个英汗双语平行语料库进行些实验,但是一直找不到可以直接下载的这种语料库。不知道博主对这个是否了解,如果您知道,希望您能告诉我从哪里能得到这样的语料库,万分感谢!
[回复]
52nlp 回复:
13 11 月, 2010 at 11:00
SMT常用的一些英汉平行语料库都是有版权的,如果需要,可以考虑去中文语言资源联盟上购买!下面这个链接是我Google到的一个,貌似可以免费下载10万条:
http://hi.baidu.com/beefamily/blog/item/380daa1e4fccf217413417ca.html
[回复]
博主,你好!
我目前在北京,想搞个线下交流的自然语言处理的学术沙龙。不知道是否可以得到支持?
谢谢!
[回复]
52nlp 回复:
15 11 月, 2010 at 08:46
你好:请问需要何种方式的支持?如果需要在这里发文号召,没任何问题。
[回复]
alex 回复:
15 11 月, 2010 at 08:50
谢谢!!
[回复]
52nlp 回复:
15 11 月, 2010 at 08:51
不客气,可以发邮件给我,将详细信息告知,我代为转发。
以下文字是否合适?麻烦给发一下。弱弱的问一下,你邮箱是?
发起成立中文机器翻译定期学术沙龙
中文机器翻译是自然语言处理的重要应用领域之一,其跨学科的特点非常显著,涉及了语言学、数学、计算机、认知科学等多种学科。
目前在北京和全国对相关研究感兴趣的人很多,相对分散。仅仅在北京,从事相关研究的北京高校和科研院所就有清华大学、北京大学、中科院各研究所、北京外国语大学、北京师范大学、北京邮电大学、中国传媒大学、北京交通大学等。
鉴于此,拟组织定期学术沙龙活动,在轻松的环境中相互交流学术问题,促进相关的学术研究。沙龙设想的初期参与者包括北京各高校、研究所的硕士博士生和科研人员,也欢迎公司企业界和京外相关人士参加。
有兴趣的请发邮件到cmt.salon@gmail.com与我联系。谢谢!
[回复]
52nlp 回复:
17 11 月, 2010 at 21:38
52nlpcn at gmail.com 在"关于"页面里有;
基本信息全了,但是希望能提供一点组织者的信息,可以发到我的邮箱;另外建议有条件的话同时发在水木社区NLP版,这里很有人气!
[回复]