上次说到Brown当时是工作在IBM语音识别实验室的,我们还是先看看Google吴军“数学之美”系列中是如何介绍当时IBM华生实验室语音识别小组的,在“贾里尼克的故事和现代语言处理”中这样描述:
“贾里尼克在康乃尔十年磨一剑,潜心研究信息论,终于悟出了自然语言处理的真谛。1972年,贾里尼克到IBM华生实验室(IBM T.G. Watson Labs)做学术休假,无意中领导了语音识别实验室,两年后他在康乃尔和IBM之间选择了留在IBM。在那里,贾里尼克组建了阵容空前绝后强大的研究队伍,其中包括他的著名搭档波尔(Bahl),著名的语音识别 Dragon 公司的创始人贝克夫妇,解决最大熵迭代算法的达拉皮垂(Della Pietra)孪生兄弟,BCJR 算法的另外两个共同提出者库克(Cocke)和拉维夫(Raviv),以及第一个提出机器翻译统计模型的布朗。”
吴军所列出的这个空前绝后的阵容中有5个人是Brown90的作者,按顺序依次是:彼得•布朗(Peter F. Brown),约翰•库克(John Cocke),史蒂芬•达拉皮垂(Stephen A. Della Pietra),文森特•达拉皮垂(Vincent J. Della Pietra),弗莱德里克•贾里尼克(Fredrick Jelinek)。Brown90其他三个作者分别是John D. Lafferty,Robert L. Mercer,Paul S. Roossin。这些人究竟有多强,这里细数一下。
贾里尼克就不用说了,吴军在“数学之美”里多次提到,并且专门在系列八里讲贾里尼克的故事,有兴趣的读者可以仔细阅读一下。另外数学之美也非常值得推荐,吴军用很通俗的手法讲了许多自然语言处理的知识点,读起来感觉比较痛快。
先看Bronw90第二作者约翰•库克,他是1987年度的图灵奖获得者。图灵奖由美国计算机学会于1966年创立,以计算机概念的创始人图灵的名字命名,每年评选出一至三名获奖者,是世界计算机科学领域的最高奖项,有“计算机界诺贝尔奖”之称。库克被认为是RISC体系结构之父,其图灵奖的获得通常被学术与工业界认为是对其在RISC方面工作的肯定。按说库克搞的是硬件,但是又偏偏和统计机器翻译搅在一起,这是为什么呢?看看下面这一段描述就知道了:
“库克是从机械转到数学,又从数学转到计算机方向上来的学者。他生于1925年,1946年在杜克大学(Duke University)获得机械工程学士学位,干了几年实际工作以后,又回到母校读研究生,改攻数学,于1956年取得博士学位。之后,他进入IBM,从此开始了他的计算机生涯,并为IBM计算机市场的开拓和计算机科学技术的发展做出了巨大的贡献。由于他学过机械和数学,基础扎实,知识面广,加上兴趣广泛,善于动脑,他在IBM许多产品的设计、开发和技术问题的解决中都起过至关重要的作用,有众多的发明创造。在华生研究中心,每当人们有疑难问题需要解决的时候,常常说:“找约翰讨论讨论去”。事实上,库克也总能提出有益的建议,因而受到同事的普遍敬仰和尊重。”
再看布朗本人,在Google很难查到布朗本人的现状,不过在94年与其相关的最后一篇学术论文“The Candide system for machine translation”里我找到了一丝线索,作为那篇文章的第二作者,论文为其做了一个特别注释:“ Current address:Renaissance Technologies,Stony Brook, NY”, Renaissance Technologies 就是大名鼎鼎的文艺复兴技术公司。说明布朗本人在90年代初离开IBM后没有继续在学术界发展,而是进入了金融界。
Brow90的另外两个作者达拉皮垂兄弟深谙最大熵模型,1996年在自然语言处理中首次应用最大熵方法的经典论文“A maximum entropy approach to natural language processing”中他们分别是第二、三作者,不过他们最终也去了文艺复兴技术公司,可以在数学之美系列十六关于最大熵模型的文章里找到相应的证实:
“讲到这里,读者也许会问,当年最早改进最大熵模型算法的达拉皮垂兄弟这些年难道没有做任何事吗?他们在九十年代初贾里尼克离开 IBM 后,也退出了学术界,而倒在金融界大显身手。他们两人和很多 IBM 语音识别的同事一同到了一家当时还不大,但现在是世界上最成功对冲基金(hedge fund)公司 -- 文艺复兴技术公司(Renaissance Technologies)。”
说了最大熵,了解自然语言处理几个基本模型的读者也许会想到条件随机场(CRF),但是最早将CRF应用于自然语言处理的人物又是谁呢?事实上也是Brown90的作者之一:John D. Lafferty,和贾里尼克相似,在离开IBM后他去了卡耐基梅隆大学继续搞学术研究,2001年以第一作者的身份发表了CRF的经典论文“Conditional random fields: Probabilistic models for segmenting and labeling sequence data”。
隐马尔科夫模型(HMM),最大熵模型(MEM)和条件随机场(CRF),在自然语言处理领域中处处可见它们的身影。其实这也说明了一个问题,数学模型的重要性,这些模型不仅仅用在自然语言处理的各个领域内,在其他领域也能用到,所以没事多学习一下数学,好好掌握这些模型,即使将来不搞自然语言处理,开玩笑的说也可以像布朗他们一样在金融界大展身手。
Brown90的最后两位作者我没有深究,但也绝非平庸之辈,读者如果有兴趣,可以调查一下。
注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn
本文链接地址:https://www.52nlp.cn/strong-author-team-of-smt-classic-brown90/
第二次来博主的空间
第一次是看见你的主机商挂掉了
这次过来看见这篇文章,
感觉博主蛮有才的说
每回来看里面的文章都觉得好难理解……
自己不是学计算机的
也不明白这么多大道理啦
建个博记录记录心情。
[回复]
admin 回复:
9 4 月, 2009 at 15:28
建这个博的主要目的是记录和学习,不过的却面向的是搞自然语言处理的这个群体,如果了解的话,其实也算不上什么,欢迎再来!
[回复]
[...] 与最大熵模型相似,条件随机场(Conditional random fields,CRFs)是一种机器学习模型,在自然语言处理的许多领域(如词性标注、中文分词、命名实体识别等)都有比较好的应用效果。条件随机场最早由John D. Lafferty提出,其也是Brown90的作者之一,和贾里尼克相似,在离开IBM后他去了卡耐基梅隆大学继续搞学术研究,2001年以第一作者的身份发表了CRF的经典论文 “Conditional random fields: Probabilistic models for segmenting and labeling sequence data”。 关于条件随机场的参考文献及其他资料,Hanna Wallach在05年整理和维护的这个页面“conditional random fields”非常不错,其中涵盖了自01年CRF提出以来的很多经典论文(不过似乎只到05年,之后并未更新)以及几个相关的工具包(不过也没有包括CRF++),但是仍然非常值得入门条件随机场的读者参考,以下摘选自该网页。 [...]
[...] 由John D. Lafferty提出,其也是Brown90的 [...]