写这个题目的时候,自然语言处理(NLP)和高级语言技术上处于领先地位的私人公司Teragram 被商业智能和分析软件供应商SAS收购(08年3月17日),宣称使用自然语言处理搜索技术的Powerset被微软收购(08年7月1日),在文本分析方面领先的Inxight被法国商业智能软件公司Business Objects(BO)收购(07年5月31日),而BO随后又被德国软件大鳄SAP收购(07年10月7日)。
在这个软件企业兼并潮的年代里,这些以自然语言处理相关技术起家的企业选择了“寄人篱下”,但是还有一些与自然语言处理技术相关的企业依然在坚持着,譬如机器翻译行业老大Systran,基于语义计算技术的并飞速发展的企业搜索厂商Autonomy,以及国内的华建,汉王等公司,让我们看到了自然语言处理技术的前景与未来!
无论从哪个角度来看,自然语言处理是最能体现“智能”二字的领域,而“智能”又恰恰是技术追求的最高境界!因此我乐观的相信:未来的应用领域到处都会有自然语言处理相关技术的影子,而现在,仅仅是开始!
Teragram = Tera + gram
Teragram是一家美国公司,中文名为泰码,是一家领先的自然语言、知识信息、文字处理技术和服务软件提供商。公司总部设在马萨诸塞州剑桥市,拥有40名员工,创立于1997年,和很多美国科技公司一样,创始人是两位自然语言处理研究方面的博士:Yves Schabes与Emmanuel Roche。
关于Teragram这个名字,在其中文官方主页上有这样的解释:
“Teragram”一词的词源反映了泰码公司的使命。
“Tera”源于古希腊文,意为“怪物”。“Tera”这个前缀的使用,又回归到这个古老的意义上。
“Tera-” 用于计算机科学中是一个用于计量单位名称的词缀,相当于2的40次方,即1,099,511,627,776,也等于10的12次方,即一兆。
“-gram”源于拉丁文,法文和古希腊文。除了是一种重量的单位,“-gram”也是有表示所写的,所画的,所记载的等意义的名词的词缀。
这里不得不让人联想到了Google公司名字的含义,而事实上Google比Teragram创立的时间还迟,但是当时他们都认识到了海量数据和信息处理的意义!
Teragram公司所独有的NLP技术已经很成熟,并且拥有一定的客户群,其中包括:CNN、 Forbes.com、NYTimes Digital、Sony、AltaVista、WashingtonPost.com、Wolters Kluwer、the World Bank和Yahoo!等公司。
Teragram在以下几个NLP应用领域具有雄厚的技术:
自然语言处理:Teragram公司的自然语言处理(NLP)技术将把多种语言和多种来源的文本内容转化为有用的信息,在文字、语言关系和字意层面上实现更加丰富的数据处理功能。Teragram公司已经开发并维护着含有注解的巨大词库,里面包含了数以亿计的词汇,语种多达30多个。
自动分类:Teragram公司先进的分类技术能够依据在企业内部广泛采用的客户标准对文件提供快捷和先进的分类功能,这就使得不论原始文件存放在何处,用户随时能够根据特定的主题更加快速和准确地获得需要的文件,满足特定用户的需求。
自然语言企业搜索:针对企业级的搜索需求,Teragram的NLP技术可以对结构性的企业数据以及非结构性的数据源进行扫描,包括基于文本的报表和网页,以便从这些不同的信息源中获取综合性的答案。
移动搜索:Teragram所提供的下一代移动搜索功能,帮助个人实现远程信息的扫描,更加快速地获得答案。采用Teragram的移动搜索技术,人们能够存储和检索信息、连接到诸如BI系统的外部应用、来自BlackBerry的搜索数据库、职能电话或其他移动设备。
2008年3月17日,SAS宣布收购Teragram,以加强SAS公司自身的文本挖掘和分析型BI产品线,并将范围扩展到企业和移动搜索领域。这对Teragram是福是祸,我们拭目以待!
注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn
本文链接地址:
https://www.52nlp.cn/natural-language-processing-company-teragram/