不知道今年的什么时候,机器翻译领域的骑士Kevin Knight教授为自然语言处理研究者写了一篇关于贝叶斯推理的指南性文章“Bayesian Inference with Tears: a tutorial workbook for natural language researchers”,我大概一个月以前翻阅他的个人主页时看到了,粗略的阅读了一遍,印象深刻的是他提到EM算法的时候把写作“A Statistical MT Tutorial Workbook”的缘由交代了一段话,这段话我在《统计机器翻译文献阅读指南》中也作了引用。
  与“A Statistical MT Tutorial Workbook”异曲同工,“Bayesian Inference with Tears”算得上是一篇比较通俗的介绍文章,非常值得推敲,不过Knight老师起的这个题目却让我有点摸不着边,想把它翻译成中文,却又不知如何下笔,直译的话就是“贝叶斯推理与眼泪”了,但是这样的翻译感觉好怪,也许只有弄明白这篇文章才能解释其中的奥秘了!如果读者朋友有明白的,也请在这里分享一下!非常感谢!
  前几天写HMM与词性标注的文章,顺便关注了一下Philip Resnik教授的个人主页,置顶的一篇文章是“Gibbs Sampling for the Uninitiated”,查了一下,“Uninitiated”可以翻译为“门外汉”,而“Gibbs Sampling”我在论文里见过几回,没有深究,也不明白,完全是个“门外汉”,于是粗略的读了一下这个文章的介绍,其主旨便是向尝试利用马尔可夫链蒙特卡罗方法,尤其是在文本处理中利用贝叶斯模型进行推理的计算机工作者介绍相关技术(This document is intended for computer scientists who would like to try out a Markov Chain Monte Carlo (MCMC) technique, particularly in order to do inference with Bayesian models on problems related to text processing),马尔科夫链我清楚,蒙特卡洛方法大学时学数学时用过,但是合在一起的“马尔可夫链蒙特卡罗方法(MCMC)”对我来说完全是一个新名词。
  另外关于Gibbs Sampling,作为MCMC的一种方法,主要是用来对积分求近似解的。Resnik教授先提了“为什么用积分(Why integrals)”:许多计算机科学工作者,尤其是我们这些搞(统计)自然语言处理的,将主要精力花在了离散事件上而忽略了积分的重要性等等。另外,关于积分的求法,数学课本里教的方法只适用于做课本里的数学题,但是并不能解决现实事件的有趣问题,因此Sampling便有用了。
  我读论文一般都会看一下它的参考文献,而Resnik教授的这篇文章的参考之一便是“Bayesian Inference with Tears”,于是我又回头仔细读Knight教授的这篇文章,才发现文中主要是解读了自然语言处理中的一些无监督学习的任务,譬如中文分词、词性标注、词对齐等,对于这些任务,如果有一个好的训练集,那么就很简单了,但是“what’s fun about that”,大牛们总喜欢做一些有挑战的工作。
  Knight教授在举例前也着重推荐了一下Resnik教授的“Gibbs Sampling for the Uninitiated”,看来英雄惜英雄,古今中外,从来都一样!他们俩关系可不一般,前者本科毕业于哈佛大学计算机科学系(86级),后者本科毕业于哈佛大学计算机科学系(87级),同为一个院系的校友,不过两篇文章绝不是靠关系相互推荐的!
  nlpers博客11月6号同样将这两篇文章捆绑销售:
  “This isn't so much a post in the "GSI" series, but just two links that recently came out. Kevin Knight and Philip Resnik both just came out with tutorials for Bayesian NLP. They're both excellent, and almost entirely non-redundant. I highly recommend reading both. And I thank Kevin and Philip from the bottom of my heart, since I'd been toying with the idea of writing such a thing (for a few years!) and they've saved me the effort. I'd probably start with Kevin's and then move on to Philip's (which is more technically meaty), but either order is really fine.”
  所以,要向这些自然语言处理领域的大牛们学习,那么就读读他们最近写的文章吧:
  • Bayesian Inference with Tears by Kevin
  • Gibbs Sampling for the Uninitiated by Philip

注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:https://www.52nlp.cn/tears-and-uninitiated-learn-from-natural-language-processing-heros

作者 52nlp

《“眼泪”与“门外汉”——向自然语言处理的大牛们学习》有16条评论
  1. Bayesian with tear 看了之后感觉是讲了一种unsupervised learning的新方法,以及这种方法与EM的比较。最终的感觉是除了多了解了一些gibbs sampleing,其他的没有什么特别的收获。

    [回复]

    52nlp 回复:

    算的上是一种抛砖引玉吧,如果想深入的了解这方面的东西,可能需要看更多的资料了!

    [回复]

  2. With tears似乎应该译为含泪,用来形容作者学习Bayesian Inference的艰辛。

    [回复]

    52nlp 回复:

    非常感谢,这样解释真好!

    [回复]

  3. with tear我想应该来自于著名的“莫斯科不相信眼泪”吧。

    好像以前看过一片without tears 关于gibbs smapling 还是Bayesian的,意思应该是让你不象想像中那么痛苦的学习。。。

    我猜的:)

    [回复]

    52nlp 回复:

    呵呵,解释的很妙,谢谢!

    [回复]

  4. 应该是以概率Parser大师Charniak早期的一篇文章Bayesian Networks without Tears为典故。那是1991年统计方法引入NLP之初,许多NLP学者对Bayesian Networks理解吃力,Charniak为此写了这篇通俗的介绍,他想让大家都能轻轻松松学习概率方法。可是我想,与Knight一样,没有几个学统计NLP的人不经过流泪阶段的,本人涉足二年,正处水深火热中。感谢52NLP提供此平台,让我多了解这个领域的信息。

    [回复]

    52nlp 回复:

    谢谢你让我知道了这个典故,感觉这样解释更靠谱了!欢迎有机会在这里分享NLP方面的心得!

    [回复]

    rchan 回复:

    这篇文章似乎就发在91年的ai magzine,之前碰巧读过

    [回复]

    xueyayang@gmail.com 回复:

    我是看"Bayesian statistics without tears: a sampling-resampling perspective"-Smith and Gelfand这篇文章时,不理解这个without tears什么意思,找到这儿来的。谢谢你,让我知道了这个典故。

    [回复]

  5. with tear翻成“吐血”会不会是蛮有感的:)

    [回复]

    52nlp 回复:

    的确“有感”,但是我感觉很多人看到“吐血”后会“知难而退”的!

    [回复]

  6. [...] 一开始直接就下了Blei的原始的那篇论文来看,但是看了个开头就被Dirichlet分布和几个数学公式打倒,然后因为专心在写项目中的具体的代码,也就先放下了。但是因为发现完全忘记了本科学的概率和统计的内容,只好回头去看大学时候概率论的教材,发现早不知道借给谁了,于是上网买了本,花了几天时间大致回顾了一遍概率论的知识,什么贝叶斯全概率公式,正态分布,二项分布之类的。 后来晚上没事儿的时候,去水木的AI版转了转,了解到了Machine Learning的圣经PRML,考虑到反正也是要长期学习了,搞了电子版,同时上淘宝买了个打印胶装的版本。春节里每天晚上看一点儿,扫了一下前两章,再次回顾了一下基本数学知识,然后了解了下贝叶斯学派那种采用共轭先验来建模的方式。于是再次尝试回头去看Blei的那篇论文,发现还是看不太懂,于是又放下了。然后某天Tony让我准备准备给复旦的同学们share一下我们项目中LDA的使用,为了不露怯,又去翻论文,正好看到Science上这篇Topic Models Vs. Unstructured Data的科普性质的文章,翻了一遍之后,再去PRML里看了一遍Graphic Models那一张,觉得对于LDA想解决的问题和方法了解了更清楚了。之后从search engine里搜到这篇文章,然后根据推荐读了一部分的Gibbs Sampling for the Uninitiated。之后忘了怎么又搜到了Mark Steyvers和Tom Griffiths合著的Probabilistic Topic Models,在某个周末往返北京的飞机上读完了,觉得基本上模型训练过程也明白了。再之后就是读了一下这个最简版的LDA Gibbs Sampling的实现,再回过头读了一下PLDA的源码,基本上算是对LDA有了个相对清楚的了解。 [...]

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注