这几天估计很多人都在关注IBM超级计算机沃森(Watson)在美国最受欢迎的智力竞猜电视节目《危险边缘》中的表现,而在经历了三天的比赛后,沃森终于击败了该节目历史上两位最成功的选手肯-詹宁斯和布拉德-鲁特,成为《危险边缘》节目新的王者:IBM超级计算机在智力问答比赛中击败人类。与这场“人机大战”相关的信息中,几乎都会提及“自然语言处理”,毕竟沃森首先需要突破的就是能“理解人类的语言”,这当然是“自然语言处理”的份内之事。而在我看来,IBM沃森看起来更像一个超级的“自动问答”系统,当然,沃森背后凝聚的岂止是“自动问答”,它是一个包含了海量数据处理,机器学习,信息提取,文本分析,知识推理,自动问答等众多技术的的超级“人工智能”结合体。
下午在看到这个消息时,我有一个很强烈的念头,要写一篇“IBM超级计算机沃森(Watson)背后的自然语言处理技术”,当然,即使写出来,也只能是一个旁观者的角度,需要一定的素材去挖掘。不过刚好有一篇相关的新闻给了我一些启示“IBM宣布八所大学参与沃森计算机系统的开发”:
“我们很高兴与这些在其各自领域表现优异的大学和专家们进行合作,他们可帮助推动作为 IBM沃森系统的支柱的问答技术的进步”,IBM沃森项目组负责人 David Ferrucci 博士表示,“《危险边缘》Jeopardy! 挑战的成功将突破与计算技术的处理和理解人类语言的能力有关的障碍,并将对科学、技术和商业带来深远的影响。”
这篇文章下面对于每所大学的贡献都给与了简要的描述,通读下来,会发现“自然语言处理”技术在其中扮演着重要的角色。特别是麻省理工学院:
来自麻省理工学院,由计算机科学及人工智能实验室首席研究科学家 Boris Katz 带领的一个研究团队开创了一个名为 START 的在线自然语言问题回答系统,该系统能够使用来自半结构化和结构化信息存储库的信息来非常准确地回答问题。对沃森系统的根本贡献是将问题细分成简单的子问题,以便迅速收集相关回答,然后将这些回答汇合起来形成最终答案的能力。沃森系统的架构还利用了由麻省理工学院开创的对象-属性-值数据模型,该模型支持对半结构化数据源中的信息进行有效的检索,以回答自然语言问题。
这里面提到的自然语言问答系统START很有意思,有兴趣的读者可以试着问两个问题看看:”What is start" and "How old are you"!
还有一篇关于沃森的文章“存储分析 Watson对于数据存储意味着什么?”也给了我很大的启示,特别是这篇博客的题目,就是模仿这篇文章写的。对于沃森来说,没有高度优化的海量数据存储,其他都将是空中楼阁,而这片文章给出的一些数据还是挺能说明问题的:
Watson是IBM所研发出来的最新的大型智能计算机,其命名源自于IBM的创始人ThomasJWatson。其主要组成为90个跑在Linux系统上的POWER 750服务器,内含2880个处理器内核、4TB的内置存储以及15TB的RAM(也有说法是16TB RAM),这些服务器设备被放在了10个机架上面。值得一提的是,其存储系统所采用的是经过特殊优化的IBM Scale-out架构NAS产品--SONAS。
从IBM博客作者Tony Pearson的文章中,我们能够找到一些非常有意思的东西。Pearson是这样描述Watson的数据处理过程的:"当Watson启动时,其15TB的RAM都会被装载,此后,DeepQA(IBM的智能分析软件)进程从内存载入。IBM Research表示,在实际应用的数据总量中(分析和索引数据,知识库等),用于生成候选答案和评估证据的大小在1TB以内。
当然,这并不是Watson存储的总容量,根据了解,其所挂接的IBM SONAS集群总容量为21.6TB。当然,如同上文所说,其中很大一部分都是分析和索引数据、应用以及知识库。
是的,尽管Watson似乎无所不知,不过其所依靠的基础并非我们所想象的海量数据,而只是一个1TB驱动器所能承载下的内容。
那么“自然语言处理对于IBM超级计算机沃森(Watson)意味着什么?”或者“沃森的胜利对于自然语言处理又意外着什么?”,原打算一个人来写篇总结,后来想想群体的智慧才是无穷的,就把这个问题抛出来了,欢迎大家踊跃发言,特别是沃森背后还有多少不为人知的自然语言处理技术,希望我们能总结的无比透彻!
注:原创文章,转载请注明出处“我爱自然语言处理”:https://www.52nlp.cn
本文链接地址:https://www.52nlp.cn/自然语言处理对于ibm超级计算机沃森watson意味着什
1T的书和文章已经很多了,Watson又不处理图片数据
[回复]
52nlp 回复:
18 2 月, 2011 at 13:27
1T的文本的确挺多的了。
[回复]
===> do you know my cet6 score?
Sorry - I don't know whether I know your Cet6 scores.
我向START提出的问题与答案
[回复]
===> do you know my cet6 score?
Sorry - I don't know whether I know your Cet6 scores.
我的问题与答案
呵呵,“我不知道我是否知道你的六级成绩。”
[回复]
http://songshuhui.net/archives/50278
感觉还是以文本检索为主,只是参考数据巨多,倒不见得真的能在语义上挖多深
[回复]
52nlp 回复:
18 2 月, 2011 at 21:05
参考数据再多,也多不过Google,我倒是觉得这次沃森在对文本的分析和挖掘上是下了一番功夫的。
[回复]
Justin 回复:
20 2 月, 2011 at 20:26
嗯,watson肯定比较一般的检索系统要挖得深。但它应该还没有实现像有人那种复杂概念的智能,应该还是比较机械的。
[回复]
52nlp 回复:
21 2 月, 2011 at 15:52
嗯,相对于"人工智能”的终极目标,watson应该还差得很远,不过这次它在“自然语言处理”上表现的确不错!
希望能看到那天节目和测试过所有的问题和问答过程,这样也许能猜出一二呢~~
[回复]
52nlp 回复:
23 2 月, 2011 at 13:19
貌似水木上有人说土豆上有,可以试着找找看。
[回复]
有兴趣的同学可以看看这个,wolfram和IBM的研究部门有接触,这是他写的文章,透露了一些内部细节
http://blog.stephenwolfram.com/2011/01/jeopardy-ibm-and-wolframalpha/
[回复]
52nlp 回复:
23 2 月, 2011 at 13:19
Thanks a lot!
[回复]
和大牛探讨自己理解的部分内容,各位拍:
1,它里面应该建立了知识库。
2,原有的所载入的什么圣经啊,百科全书啊等等都建立索引
简单问题,通过语义分析搜索答案,并评分,与推理得到的答案的评分比较得到概率大的答案。
复杂问题,双关问题,通过上下文,确定含义,搜索答案。
但是根据链接的文章介绍,Watson对问题都是基于知识推理的,那么知识的建立也是依据对象属性值的方式进行,那似乎知识库没多大,全是推理的占用空间啊
没有理解为何占用了那么大的空间和运算量,等待大牛继续解释,Watson运用的技术,关键点,过程,实现等等等。。。
[回复]
52nlp 回复:
25 2 月, 2011 at 13:35
谢谢!真正的技术细节需要从 论文中去挖掘,水木自然语言处理版已经挖出来了一些,可以去看看。
[回复]
http://blog.sina.com.cn/s/blog_66755b230100oubz.html
IBM Watson机器人算法介绍
[回复]
52nlp 回复:
3 3 月, 2011 at 21:35
非常感谢!这是我看到的关于沃森的最有价值的中文技术文章了。
[回复]
[...] 李维老师的文章看起来就是过瘾,这篇文章也是刚刚在科学网上看到的,还有下一篇,感兴趣的读者可以继续关注。前段时间IBM超级计算机沃森(Watson)刚刚出了一把风头,也让关注自然语言处理的读者更关注起自动问答系统了,李维老师的这篇博文无疑让我们对于问答系统的前世今生又有了一次深刻的了解,所以厚着脸皮,以下继续全文转载自李维老师的博文:立委科普:问答系统的前生今世。 [...]
今年的ACL的speaker之一就是David Furruci(不知道拼对了没)
Watson的leader
[回复]
52nlp 回复:
20 6 月, 2011 at 08:02
你可在现场?
[回复]
lingandcs 回复:
20 6 月, 2011 at 09:30
没有。
今年因为有事 所以没去
[回复]