###背景
看LDA的时候发现自己对几个常见的分布,总是云里雾里,但是这东西又是必须要搞明白的,现在统一总结一下。
###Binary Variable
以硬币为例,正面为1,反面为0。
假定这是一个坏掉的硬币(它不均匀),假设它正面的概率是: $p(x=1|\mu)=\mu$,其中 $0 \le \mu \le 1$,对于反面来说 $p(x=0|\mu)=1-\mu$。
这里采用伯努利分布可以写成:
它的期望是: ,方差是:
现在假定我们有一个$x$的观察数据集 ,我们来构造一个基于$\mu$似然函数,这些$x$都是独立的从该函数上取得。于是:
由于$\prod$不便于计算,为了方便计算最大似然估计,采用计算$log$似然函数的方式:
对$\mu$求导,使其等于0,解出$\mu$的值,为当前似然估计的最大值点:
这也就是样本均值。
####过拟合
假定我们扔了三次硬币,而这三次恰好都是正面朝上,于是由最大似然估计可以得出,, 这是与常识所不符合的。也就是说我们的模型过拟合了。
下面通过引入先验概率来得到一个更靠谱点的结果。
###Binomial Distribution(二项分布)
where
###Beta Distribution(Beta分布)
从前面的二项分布和伯努利分布可以看出,直接采用观察到的3次正面来计算,会导致过拟合,于是需要引入先验概率。由于我们要计算,而通过贝叶斯定律$$p(x)=p(x | \mu)*p(\mu)p(x | \mu)$$的形式一样,那么计算起来就简单了,于是引出了共轭的概念。 |
####共轭
如果选择一个先验概率是的幂次与的幂次的乘积,而后验概率分布也是这个函数形式,那么这种特性叫做共轭。(先验概率公式与后验概率公式的形式一样。)
这里我们采用Beta分布作为这个先验概率:
其中,是Gamma函数。
Beta分布的期望: 方差:
其中,a,b经常被称作超参数(Hyperparameters),因为他们控制$\mu$的分布。
###Multinomial Variables
相对于二项变量,当随机变量可以取1到K之间的元素时,这就是多项分布了。(从扔一个硬币变成扔一个色子。)
例如:
如果我们通过参数$\mu_k$来描述的分布,那么这个分布就是: ,其中 ,并且满足 和 。
###Dirichlet Distrbution
The normalized form:
其中, 是伽马函数,而
用先验概率*似然函数,可以得到的后验分布形式:
还是不太懂这部分,进一步理解之后补上。