自然语言处理:背景和概述
Natural Language Processing:Background and Overview
作者:Regina Barzilay(MIT,EECS Department,September 8, 2004)
译者:我爱自然语言处理(www.52nlp.cn ,2009年1月3日)
这堂课将要回答的问题(Questions that today’s class will answer):
1、什么是自然语言处理(What is Natural Language Processing (NLP))?
2、为什么自然语言处理比较难(Why NLP is hard)?
3、我们能够构建一个可以从文本中学习的程序吗?(Can we build programs that learn from text)?
4、这门课程将包含哪些内容(What will this course be about)?
一、 什么是自然语言处理(What is Natural Language Processing)?
1、计算机将自然语言作为输入或输出:
图略......
输入对应的是自然语言理解(NLU: Natural Language Understanding);
输出对应的是自然语言生成(NLG: Natural Language Generation);
2、关于NLP的多种观点:
A、人类语言处理的计算模型(Computational models of human language processing):
——程序内部按人类行为方式操作(Programs that operate internally the way humans do)
B、 人类交流的计算模型(Computational models of human communication):
——程序像人类一样交互(Programs that interact like humans)
C、有效处理文本和语音的计算系统(Computational systems that efficiently process text and speech)
3、NLP的应用(NLP Applications):
A、“宝贝鱼”机器翻译(Machine Translation with Babel Fish)…….
B、MIT翻译系统(MIT Translation System)……
C、文本摘要(Text Summarization)……
D、对话系统(Dialogue Systems)……
E、其他应用(Other NLP Applications):
——语法检查(Grammar Checking)
——情绪分类(Sentiment Classification)
——ETS作文评分(ETS Essay Scoring)
二、 为什么自然语言处理比较难(Why NLP is hard)?
1、 歧义(Ambiguity)
“At last, a computer that understands you like your mother”
对于这句话的理解:
A、 它理解你就像你的母亲理解你一样(It understands you as well as your mother understands you);
B、 它理解你喜欢你的母亲(It understands (that) you like your mother);
C、 它理解你就像理解你的母亲一样(It understands you as well as it understands your mother)
D、 我们来看看Google的翻译:最后,一台计算机能够理解你喜欢你的母亲(译者附加上去的,看上去Google的理解更像B)。
A到C这三种理解好还是不好呢?(1 and 3: Does this mean well, or poorly?)
2、 不同层次的歧义(Ambiguity at Many Levels)
A、 声音层次的歧义——语音识别(At the acoustic level -speech recognition):
——“ ... a computer that understands you like your mother”
——“ ... a computer that understands you lie cured mother”
B、 句法层次的歧义(At the syntactic level):
图略
不同的结构导致不同的解释(Different structures lead to different interpretations)
更多的句法歧义例子(More Syntactic Ambiguity)…….图略
C、 语义(意义)层次的歧义(At the semantic (meaning) level):
Two definitions of “mother”:
——a woman who has given birth to a child
——a stringy slimy substance consisting of yeast cells and bacteria; is added to cider or wine to produce vinegar
这是一个词义歧义的例子(This is an instance of word sense ambiguity)
更多的词义歧义例子:
——They put money in the bank
= buried in mud?
——I saw her duck with a telescope
D、话语(多语)层次的歧义(At the discourse (multi-clause) level):
——Alice says they’ve built a computer that understands you like your mother
——But she ...
... doesn’t know any details
... doesn’t understand me at all
This is an instance of anaphora, where she co-referees to some other discourse entity
未完待续:第二部分
附:课程及课件pdf下载MIT英文网页地址:
http://people.csail.mit.edu/regina/6881/
注:本文遵照麻省理工学院开放式课程创作共享规范翻译发布,转载请注明出处“我爱自然语言处理”:www.52nlp.cn
本文链接地址:
https://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-first-part/
Great site.
[回复]
Babel最好不要直译成宝贝吧……
Babel来源于圣经的传说,世人本来语言相通,因为兴建Babel,也就是通天塔,触怒上帝,导致他惩罚世人,让他们语言不通
[回复]
admin 回复:
8 4 月, 2009 at 11:26
Bable fish的翻译是参考了网上的普遍称呼的,雅虎中文官方翻译网页标题里也取名“宝贝鱼”,可以参考下面这一段解释,是取了谐音:
“Babel fish最早是AltaVista在1999年推出的翻译服务,后随着AltaVista 和Overture被雅虎的收购又转移到了雅虎旗下。中文版雅虎翻译-“宝贝鱼”就是取Babel fish谐音,多语言翻译之意,希望它真能成为网友手中的翻译之宝。http://fanyi.cn.yahoo.com/”
谢谢你的建议,翻译“MIT自然语言处理”时最头痛的就是一些特殊词的翻译取舍,欢迎常来!
[回复]
长见识了~~~babel fish还有这么多背景
Regina很不错,谢谢lz花这么多心思整理
[回复]
52nlp 回复:
26 11 月, 2010 at 09:11
不客气了,欢迎水木大牛多多过来布道!
[回复]
其实 一直有个想法, 在这里,水木,讨论组等出没的各路神仙,必定是各有所长。不如请大家在各自的方向上,写个小文。内容上,最好能够由浅入深,从概要介绍,到主要方向,前沿讨论等等。这样形成一组文章,既能帮助新人/感兴趣的读者入门,也能提供更深层次的研讨。
[回复]
52nlp 回复:
29 11 月, 2010 at 22:54
嗯,这个想法很好,我强烈支持!希望Cat大侠可以在这里先做个表率!
其实对于52nlp,我一直有一个想法,想把“她”建成一个“nlp群体博客”,一方面个人能力有限,也仅了解NLP下的一两个子领域,另一方面自己工作也比较忙,已没有以前全心全意写这个博客的“动力”了。
如果各路NLP大侠愿意,我愿意开放这个博客的注册权限,只要和NLP有关的,任由大家发挥,当然,最好在自己的强项上写一些有深度的文章,帮助新人,也能和大家一起进行深层次的讨论。
我很喜欢“StackOverflow”的交流形式,如果可能的话,在这里,关于NLP的任何话题,任何人都可以发起讨论或者发表自己的感悟!
[回复]
cat@newsmth 回复:
29 11 月, 2010 at 23:54
权限那些事情太复杂,不是我这脑袋能考虑得了的,嘿嘿,有你这面旗帜就足够了的。
最初的想法是,如果能以52nlp作为一个整体,不是很好么? 当然 把各大侠的名字标注在对应篇章下面,就更好了,有种团结的感觉,你说呢?
专题小文章和博客之间,感觉不出太大区别,但是我觉得还是应该和讨论交流区别一下。
比较理想的是,像俺这样的半瓶子醋抛个砖,然后等着大家来拍,拍完了,以志愿,抽签 或者 “被志愿”等方式选出一个代表来重新整理总结成为一个完整的专题文章。
[回复]
52nlp 回复:
30 11 月, 2010 at 09:12
权限的问题不复杂,有两种方式,一种是我对于愿意分享的NLP大侠建一个帐号,另外一种是完全开放,由读者自己注册,二者各有优劣。但是还是希望这些文章由作者自己掌控,这样一个nlp团体博客才能慢慢形成。
另外区别于讨论交流还是很重要的,毕竟这里不是水木NLP版,各司其职比较重要,我之前没有仔细想过,谢谢。
最后这种“抛砖引玉”的方式比较理想,可以尝试一下。
cat@newsmth 回复:
30 11 月, 2010 at 00:42
关于 讨论,还想多说一点。
其实我觉得讨论,和听talk一样,是一种很便捷的学习方式,尤其是对那些有兴趣的读者。但是 导向,或者说引导?很重要!
[回复]
52nlp 回复:
30 11 月, 2010 at 09:16
所以可以每期选一个话题,作为重点的交流方向。非常感谢你的建议,计划在这里做一次讨论,期待能尽快在这里开展这种形式的探讨!
那你就多费心了,呵呵
btw 你在水木帐号是多少阿
[回复]
52nlp 回复:
1 12 月, 2010 at 08:58
这没什么,谢谢你的这个建议,我准备在这里发起一次讨论,希望你能带个头,呵呵!
我在水木只是看客;好像以前注册过一个帐号,没用过,后来再用发现有问题,忘了是密码还是验证的问题。
[回复]
3、我们能从文本中学习建立程序吗(Can we build programs that learn from text)?
翻译成:“我们能够构建一个可以从文本中学习得程序吗?” 会不会好点呢?
[回复]
52nlp 回复:
30 4 月, 2012 at 20:54
谢谢,已经修改!
[回复]
pingguoilove 回复:
2 5 月, 2012 at 23:59
哈哈,不错的资源,最近在学习自然语言处理相关东西,在用MIT的mallet
[回复]