在自然语言处理公司Powerset的介绍中,Powerset使用的知识来源除了维基百科外,另一个主要来源就是Freebase,而Freebase的幕后则是“野心勃勃”的Metaweb.
Metaweb:创建最大的语义知识库Freebase
Metaweb是从事语义网(Semantic Web)技术开发的风险企业,目标是开发用于Web的语义数据存储的基础结构,是曾就职于原美国网景(Netscape)、英特尔以及AlexaInternet等公司的人才聚集在一起,于2005年7月成立,总部设在美国旧金山。Metaweb分别在06年3月和08年1月分别获得1500万美元和4250万美元的融资。
目前所开发和维护的第一个产品是Freebase,Freebase被描述为“开放、共享的世界知识数据库”,07年3月发布。Freebase是一个巨大的,合作编辑的交联(cross-linked)数据知识库。其背后的想法是为语义网建造一个像维基百科系统的产品。Freebase允许任何人提供,组织,查询,复制及利用其数据。这听起来很像维基百科,但是不同与维基按作品安排结构,它的结构更像一个人和软件均能读取的数据库。
Freebase目前包含数百个类别及数百万个主题的结构化信息。这些信息主要从公开的数据集(如维基百科,MusicBrainz,美国证券交易委员会和美国中央,美国中央情报局资料)采集及社区用户的贡献。Freebase与其他数据库的主要不同是它允许一个主题属于多个信息类别,也称为域。在一个典型的电影数据库中,例如,你想寻找有关施瓦辛格作为电影演员的主题。如果你还想找他作为健美运动员的信息,你不得不创建一个新主题或者一个全新的数据库。
而Freebase使用了一种不同的底层结构(从技术上讲Freebase是一种图结构数据库),这样在同一主题下施瓦辛格可以被“贴”上演员、政治家、奥地利公民及健美运动员的“标签”。由于Freebase主题的作用是作为信息传输的中枢,而不是其他数据库中作为信息收集的容器,因此用户可以轻易的将多样的信息放在同一个主题下。
08年7月,Freebase 宣布其文章总数即将超过400万篇,比英文维基百科的 240万篇超过60%,接近全语种(250种语言)维基百科1000万篇的一半。
很多 Web2.0 公司使用 Freebase 的数据库,对某个领域的知识进行归纳,获得有价值的资料,如:
* Taught or Not - 一个非常可爱的小游戏,用来测试你对历史上那些思想家之间的相互影响关系的了解。
* Shot or Not - 另一个有趣的游戏,测试你对有些历史著名人物死因的了解。
* Random Walk Through Influences - 一个小程序,输入某个艺术家的名字,你就可以知道他受哪个流派影响。
* Pull Quotes - 如果你对政治感兴趣,这个网站值得一看。
* Powerset – 也使用 Freebase 作知识来源。
最后,让我们来看看Metaweb创建Freebase的远景目标:通过这种方式重构世界数据,Freebase社区正在建立一个全球资源,总有一天它将允许世界各地的人们和机器比现在更方便和更快捷的获取信息。
如果这一天真的来临,Metaweb所钟爱的Freebase被称为“The Stem Of A Global Brain”也算得上实至名归了!
注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn
本文链接地址:https://www.52nlp.cn/natural-language-processing-company-metaweb/
http://www.cwbbase.com 是一个含 115,000 词的、有点类似 WordNet 的中文语义词库。欢迎访问,欢迎惠赐宝贵意见。
[回复]
向您的工作致敬!
[回复]