LDA-math-神奇的Gamma函数(3)

作者rickjin

12 月 23, 2012 #LDA, #LDA-math

1. 神奇的Gamma函数
1.3 从二项分布到Gamma 分布

Gamma 函数在概率统计中频繁现身，众多的统计分布，包括常见的统计学三大分布($t$ 分布，$\chi^2$ 分布，$F$ 分布)、Beta分布、 Dirichlet 分布的密度公式中都有 Gamma 函数的身影；当然发生最直接联系的概率分布是直接由 Gamma 函数变换得到的 Gamma 分布。对Gamma 函数的定义做一个变形，就可以得到如下式子

于是，取积分中的函数作为概率密度，就得到一个形式最简单的Gamma 分布的密度函数

如果做一个变换 $x=\beta t$, 就得到Gamma 分布的更一般的形式

其中 $\alpha$ 称为 shape parameter, 主要决定了分布曲线的形状;而$\beta$ 称为 rate parameter 或者inverse scale parameter ($\frac{1}{\beta}$ 称为scale parameter),主要决定曲线有多陡。

$Gamma(t|\alpha,\beta)$分布图像

Gamma 分布在概率统计领域也是一个万人迷，众多统计分布和它有密切关系。指数分布和$\chi^2$ 分布都是特殊的Gamma 分布。另外Gamma 分布作为先验分布是很强大的，在贝叶斯统计分析中被广泛的用作其它分布的先验。如果把统计分布中的共轭关系类比为人类生活中的情侣关系的话，那指数分布、Poission分布、正态分布、对数正态分布都可以是 Gamma 分布的情人。接下来的内容中中我们主要关注$\beta = 1$的简单形式的 Gamma 分布。

Gamma 分布首先和 Poisson 分布、Poisson 过程发生密切的联系。我们容易发现Gamma 分布的概率密度和 Poisson 分布在数学形式上具有高度的一致性。参数为$\lambda$的Poisson 分布，概率写为

在 Gamma 分布的密度中取 $\alpha = k+1$ 得到

所以这两个分布数学形式上是一致的，只是 Poisson 分布是离散的，Gamma 分布是连续的，可以直观的认为 Gamma 分布是 Poisson 分布在正实数集上的连续化版本。

这种数学上的一致性是偶然的吗？这个问题我个人曾经思考了很久，终于想明白了从二项分布出发能把 Gamma 分布和 Poisson 分布紧密联系起来。我们在概率统计中都学过 $Poisson(\lambda)$ 分布可以看成是二项分布 $B(n,p)$ 在 $np=\lambda, n \rightarrow \infty$ 条件下的极限分布。如果你对二项分布关注的足够多，可能会知道二项分布的随机变量$X\sim B(n,p)$满足如下一个很奇妙的恒等式
\begin{equation}
\label{binomial-beta}
P(X \le k) = \frac{n!}{k!(n-k-1)!} \int_p^1 t^k(1-t)^{n-k-1} dt \quad (*)
\end{equation}

这个等式反应的是二项分布和 Beta 分布之间的关系，证明并不难，它可以用一个物理模型直观的做概率解释，而不需要使用复杂的数学分析的方法做证明。由于这个解释和 Beta 分布有紧密的联系，所以这个直观的概率解释我们放到下一个章节，讲解 Beta/Dirichlet 分布的时候进行。此处我们暂时先承认(*)这个等式成立。我们在等式右侧做一个变换$t=\frac{x}{n}$,得到
\begin{align}
P(X \le k) & = \frac{n!}{k!(n-k-1)!} \int_p^1 t^k(1-t)^{n-k-1} dt \notag \\
& = \frac{n!}{k!(n-k-1)!} \int_{np}^{n} (\frac{x}{n})^k(1-\frac{x}{n})^{n-k-1} d\frac{x}{n} \notag \\
& = \frac{(n-1)!}{k!(n-k-1)!} \int_{np}^{n} (\frac{x}{n})^k(1-\frac{x}{n})^{n-k-1} dx \notag \\
& = \int_{np}^{n} \binom{n-1}{k}(\frac{x}{n})^k(1-\frac{x}{n})^{n-k-1} dx \notag \\
& = \int_{np}^{n} Binomial(Y=k|n-1,\frac{x}{n})dx
\end{align}
上式左侧是二项分布 $B(n,p)$, 而右侧为无穷多个二项分布 $B(n-1,\frac{x}{n})$的积分和, 所以可以写为
\begin{equation}
\label{binomial-beta-binomial}
Binomial(X \le k|n,p) = \int_{np}^{n} Binomial(Y=k|n-1,\frac{x}{n})dx \quad
\end{equation}
实际上，对上式两边在条件$np=\lambda, n \rightarrow \infty$ 下取极限，则左边有 $B(n,p) \rightarrow Poisson(\lambda)$, 而右边有$B(n-1,\frac{x}{n}) \rightarrow Poisson(x)$,所以得到
\begin{equation}
Poisson(X \le k|\lambda) = \int_\lambda^\infty Poisson(Y=k|x)dx
\end{equation}
把上式右边的Possion 分布展开，于是得到

所以对于们得到如下一个重要而有趣的等式
\begin{equation}
\label{poisson-gamma}
Poisson(X \le k|\lambda) = \int_\lambda^\infty \frac{x^k e^{-x}}{k!} dx \quad (**)
\end{equation}

接下来我们继续玩点好玩的，对上边的等式两边在 $\lambda \rightarrow 0$ 下取极限，左侧Poisson分布是要至少发生k个事件的概率， $\lambda \rightarrow 0$ 的时候就不可能有事件发生了，所以 $P(X \le k)\rightarrow 1$, 于是我们得到

在这个积分式子说明 $f(x) = \frac{x^k e^{-x}}{k!} $在正实数集上是一个概率分布函数，而这个函数恰好就是Gamma 分布。我们继续把上式右边中的 $k!$ 移到左边，于是得到

于是我们得到了 $k!$ 表示为积分的方法。

看，我们从二项分布的一个等式出发, 同时利用二项分布的极限是Possion 分布这个性质，基于比较简单的逻辑，推导出了 Gamma 分布，同时把 $k!$ 表达为 Gamma 函数了！实际上以上推导过程是给出了另外一种相对简单的发现 Gamma 函数的途径。

回过头我们看看(**)式,非常有意思，它反应了Possion 分布和 Gamma 分布的关系，这个和(*)式中中反应的二项分布和Beta 分布的关系具有完全相同的结构。把(**)式变形一下得到

我们可以看到，Poisson分布的概率累积函数和Gamma 分布的概率累积函数有互补的关系。

其实(*)和(**)这两个式子都是陈希儒院士的《概率论与数理统计》这本书第二章的课后习题，不过陈老师习题答案中给的证明思路是纯粹数学分析的证明方法，虽然能证明等式成立，但是看完证明后无法明白这两个等式是如何被发现的。上诉的论述过程说明，从二项分布出发，这两个等式都有可以很好的从概率角度进行理解。希望以上的推导过程能给大家带来一些对 Gamma 函数和 Gamma 分布的新的理解，让Gamma 分布不再神秘。

作者 rickjin

LLm 自然语言处理

《LDA-math-神奇的Gamma函数(3)》有17条评论

monkey1d说道：

2012年12月25号 15:45

请问博主你怎么看大量的专业pdf和论文？用平板电脑还是对眼睛好的Eink电子书阅读器还是打印出来？

[回复]
rickjin 回复:
25 12 月, 2012 at 18:02
我主要是用 kindle，加上打印的方式

[回复]
谢创群说道：

2013年02月17号 00:03

首先请原谅我在您的大作下留下如此不着边际的评论，我是一个普通大学的学生，自动化专业，喜爱编程，自学了计算机的课程，学了一些编程语言，做过一些小项目。现在大四了，找了迅雷和戴尔的Quest工作，但是在前几个月，一次偶然的机会我接触了斯坦福大学的公开课机器学习，发现我对这个领域非常感兴趣，我因此自学了很多关于机器学习的东西，发现自己知道的实在是少得可怜。因此萌发了我考研的念头，然而对中国的教育我有心存顾虑，我花这三年是不是真的能帮我学习到我想要的，相比我自己自学，到底有多大差别。据我了解，读研好不好跟导师关系很大，假如我要读的是中科院的机器学习，情况如何呢？我很困惑，我非常喜欢机器学习，但是在实际工作中学习好呢，还是读研学习好呢？我现在处于矛盾之中，想多听听有经验的人的声音，希望您能给我一些您的体会。请您回答一个问题，假如现在给你机会，为了您自身更好的发展，您将选择工作还是读研呢？

[回复]
rickjin 回复:
18 2 月, 2013 at 23:28
您的这个问题有点大，对你的情况了解有限，不敢轻易给你建议。不过中科院有机器学习方面做得很好的老师，跟随好的老师认真琢磨相信是可以学得更深些。至少我知道的中科院、北大、清华这三个地方的绝大多数的老师对学生都很负责任。当然现在网络上机器学习的教育资源很丰富，你对自己的自学能力很自信的话，自学也足以应付工业界常用的模型了。

[回复]
谢创群回复:
19 2 月, 2013 at 08:58
非常感谢您提出的意见！我会认真考虑这两条路，作出属于我的决定。谢谢！

[回复]
sypii说道：

2013年05月3号 16:47

你好！非常感谢你写了这么多精彩的文章，受益匪浅。
在这一篇当中，你提到Gamma分布与Poisson分布的数学形式上是一致的，只是 Poisson 分布是离散的，Gamma 分布是连续的，可以直观的认为 Gamma 分布是 Poisson 分布在正实数集上的连续化版本。

对此我有一个问题想请教一下：在Gamma分布中，随机变量是$x$或者说$\lambda$，但在Poisson分布中，上述变量成为参数，而随机变量却是$k$。如果这样考虑的话，说Gamma分布是Poisson分布的继续化版本似乎不太准确，那么有没有一种分布可以使Poisson分布中的离散随机变量$k$扩展到实数上而成为真正意义上的继续化版本呢？
谢谢！

[回复]
rickjin 回复:
6 5 月, 2013 at 09:26
hi， sypii, 谢谢你的指正。你说得对， " Gamma 分布是 Poisson 分布在正实数集上的连续化版本" 这个说法不准确。

[回复]
sypii 回复:
6 5 月, 2013 at 13:09
谢谢！那你觉得是否有没有一种合适的方法可以将Poisson分布推广到正实数域呢？

[回复]
火山说道：

2014年05月13号 21:08

请问，本文中的第一个公式如何得来其积分为1？我觉得式子左边等于伽马函数的平方啊！请赐教！

[回复]
柯北回复:
3 10 月, 2014 at 11:13
gamma函数左右分别除Γ(α)就的出来了。

[回复]
yi.zhou 回复:
25 11 月, 2014 at 20:35
应该是乘以Γ(α)

[回复]
龙一说道：

2015年03月1号 15:57

问下：第三个式子，即Gamma 分布的公式，分子是不是少了-1：应该是β^(α-1)t^(α-1)e^(-βt)？

[回复]
houmo 回复:
14 11 月, 2018 at 17:42
原来是对x求积分获得的密度函数，后来是对t求积分获得的密度函数，t有一个系数β，x = βt => d(x) = β d(t)，这个多产生的β把你说的-1次幂抵消了，所以没有少-1.

[回复]
Crazymage说道：

2016年09月28号 14:37

“直观的认为 Gamma 分布是 Poisson 分布在正实数集上的连续化版本”这句话不对，泊松分布是关于k的，gamma分布形式写成一样之后也是关于泊松分布里面的那个lambda的。

[回复]
Erin说道：

2017年04月9号 18:17

gamma不就是泊松的等待时间吗

[回复]
刘帅说道：

2018年04月25号 20:20

B
i
n
o
m
i
a
l
(
X
≤
k

|

n
,
p
)
=

∫

n
p

n

B
i
n
o
m
i
a
l
(
Y
=
k

|

n
−
1
,

x
n

)
d
x

请问这儿怎么好只管的理解呢，我对等号左边X<=k ，等式右边x从p到1的积分，这两个会相等，想不通

[回复]
刘帅说道：

2018年04月25号 20:22

实际上，对上式两边在条件np=λ,n→∞np=λ,n→∞ 下取极限，则左边有 B(n,p)→Poisson(λ)B(n,p)→Poisson(λ), 而右边有B(n−1,xn)→Poisson(x)B(n−1,xn)→Poisson(x),
请问这儿怎么好直观的理解呢，我对等号左边X<=k ，等式右边x从p到1的积分，这两个会相等，想不通？

[回复]

LDA-math-神奇的Gamma函数(3)

作者rickjin

作者 rickjin

相关文章

DeepSeek-V3解析及技术报告英中报告对照版

如何构建和优化推理型大型语言模型？DeepSeek R1的启示

新浪张俊林：大语言模型的涌现能力——现象与解释

《LDA-math-神奇的Gamma函数(3)》有17条评论

发表回复

You missed

Qwen2.5-Omni：迈向通用多模态AI的里程碑——解读首个支持实时多模态输入与输出的统一模型

Google DeepMind 发布多模态轻量级开源模型 Gemma 3：性能与功能全面升级

DeepSeek-V3解析及技术报告英中报告对照版

Qwen2.5-VL：阿里巴巴新一代多模态大模型的技术突破与应用前景

作者rickjin

相关文章：

作者 rickjin

相关文章

《LDA-math-神奇的Gamma函数(3)》有17条评论

发表回复

You missed