加法公式

$$ P(A \cup B) = P(A) + P(B) - P(A\cap B) $$

乘法公式

$$ P(AB) = P(A)P(B|A) $$

协方差矩阵 与 散度矩阵

将协方差矩阵乘以系数 $n-1$ 就得到了散度矩阵,矩阵的大小由特征维数 $d$ 决定,是一个为 $d×d$ 的半正定矩阵

贝叶斯公式

贝叶斯公式用于描述两个条件概率之间的关系,比如 $P(A|B)$ 和 $P(B|A)$。

$$ P(A|B) = P(A) \frac{P(B|A)}{P(B)} $$

  1. $P(A|B)$ :后验概率
  2. $P(A)$:先验概率

$$ P(A_i|B) = \frac{P(A_i)P(B|A_i)}{\sum^n_{j=1} P(A_j)P(B|A_j)} $$

全概率公式

$$ P(B) = \sum^n_{i=1} P(A_i)P(B|A_i) $$

事件 $B$ 总伴随着某个 $A_i$ 出现

贝叶斯公式与全概率公式之间的关系

$P(A_i|B)$ 后验概率(新信息 $B$ 出现后 $A$ 发生的概率) = $P(A)$ 先验概率( $A$ 发生的概率) $x$ 可能性函数(新信息带出现来的调整)

条件概率

条件概率是指事件 $A$ 在另外一个事件 $B$ 已经发生条件下的发生概率。条件概率表示为:$P(A|B)$,读作“在B的条件下A的概率”或是the probability of x given z

边缘概率

贝叶斯估计和极大似然估计

  1. MLE, Maxium Likelihood Estimator:极大似然估计
  2. MAP, Maxium a Posterior:最大后验概率

最大似然估计和贝叶斯估计最大区别便在于估计的参数不同。

最大似然估计是一种确定模型参数值的方法。确定参数值的过程,是找到能最大化模型产生真实观察数据可能性的那一组参数。要估计的参数 $θ$ 被当作是固定形式的一个未知变量,然后我们结合真实数据通过最大化似然函数来求解这个固定形式的未知变量。

贝叶斯估计则是将参数视为是有某种已知先验分布的随机变量,意思便是这个参数他不是一个固定的未知数,而是符合一定先验分布如:随机变量θ符合正态分布等!那么在贝叶斯估计中除了类条件概率密度 $p(x|w)$ 符合一定的先验分布,参数 $θ$ 也符合一定的先验分布。我们通过贝叶斯规则将参数的先验分布转化成后验分布进行求解。

在贝叶斯模型使用过程中,贝叶斯估计用的是后验概率,而最大似然估计直接使用的是类条件概率密度。

最大似然估计(和其他类似方法)把待估计的参数看作是确定性的量,只是其取值未知。最佳估计就是使得产生已观测到的样本(即训练样本)的概率为最大的那个值。

与此不同的是,贝叶斯估计则把待估计的参数看成是符合某种先验分布的随机变量。对样本进行观测的过程,就是把先验概率密度转化为后验概率密度,这样就利用样本的信息修正了对参数的初始估计值。

参考

[1] B站-「一个模型」教你搞定贝叶斯和全概率公式

[2] 知乎-从最大似然估计开始,你需要打下的机器学习基石

[3] B站-MLE(极大似然)和MAP(最大后验)