概率论小结(1)

条件概率与独立性

条件概率的式子是$P(B|A)=\frac{P(AB)}{P(A)}$,陈希孺的教材中有句话说:

设有两个事件$A,B$,$A$的无条件概率$P(A)$与其在给定B发生之下的条件概率$P(A|B)$,一般是有差异的,这反映了两个事件之间存在着一些关联”。例如,若$P(A|B)>P(A)$,则B的发生使A发生的可能性增大了,即$B$促进了$A$的发生。

我没有注意到那个“例如”,以为条件概率定然大于无条件概率!而且还自己为它找了一个理由,心想条件概率的公式里分母是$P(A)$,它一定小于等于1,分母越小,分子不变则分数越大。而我认为分子是$P(A)$,这就可见条件概率定然大于无条件概率。这想法最明显的错处就是分子并不是$P(A)$而是$P(AB)$,但问题是我怎么会出这种错呢?我似乎在直觉上把条件概率这样理解:概率是在一定空间内才谈得上的,条件概率就是局限一个更小的空间去讨论概率。既然“收缩空间”这个行为表现为“除以$B$的概率”,就是说概率本身直接等于“空间”,那么分子也如样照抄$P(B)$就可以了。其实我认为“空间”这个想法仍然是对的,但是忽略了收缩空间时$A$事件的一部分也会被排除掉,为了照顾到这种排除必须把分子写作$P(AB)$。分母写成$P(A)$也不代表是在“收缩空间”,严格来说是在“订立空间”。前者就好像说要继续“缩”就继续在原基础上除就可以了,这样只会让结果越来越大,因为概率必然小于等于1,实际上要看情况是怎么“缩”的来确定怎么“订”。

条件概率的式子变一下形就是$P(AB)=P(B|A)P(A)$,光看形式我觉得这很像描述独立性的数学语言嘛!也就是说相互独立的事件$A_1,A_2,\dots$必有:
$$P(A_1A_2\dots)=P(A_1)P(A_2)\dots$$

我开始想条件概率的变形式子是不是暗示着条件概率$P(B|A)$和$P(A)$互相独立呢。但如果非要说它们互相独立,问题就是直觉上来说它们显然不互相独立,都是“条件”概率了,事件$B|A$有赖于事件$A$,怎么可能互相独立呢!这件事使我非常纠结,后来才想清楚,这可能是自己高中囫囵吞枣懂得了这几个概念的表述,然后只做题而不重视概念前因后果的后遗症。首先独立性的数学定义是有赖于条件概率的。事件$A,B$互相独立,就是说$P(B|A)=P(A)$,这才推得出$P(AB)=P(A)P(B)$,条件概率的数学表述和独立性的确实很像,但这是因为独立性的定义出自条件概率,独立性体现了条件概率,而非反过来条件概率中体现了独立性,乃至说从中看出事件$B|A$可能和$A$“互相独立”,这好比说老子像儿子,是不清楚渊源谱系的结果。从数学理论构造上说是这样,从直觉上来说也是这样。一个意识如果只见到杂多那么就不成为意识,它起码会发现“我”和一些东西有分别,却又有时空上的关联,进一步处理杂多间的关联,产生了因果,概率之类的概念。其后这混沌的意识又进一步看出自己制订的共相中有一些实在难说有因果关联,这才产生了独立性的概念。

全概率公式

设$B_1,B_2,...$为有限或无限个事件,两两互斥且在每次实验中至少发生一个(其实就是说一个必然事件由之组成的诸种不相混杂的具体事件),这段话等价于数学上的表述:
$$B_iB_j=\emptyset \quad(i\neq j)$$
$$B_1+B_2+B_3+\dotsb=\Omega(必然事件)$$
对于任何一个事件$A$来说,因为$\Omega$是必然事件,所以$P(A\Omega)=P(A)$,再因为$B_i(i=1,2,\dots)$事件互斥,故$AB_i(i=1,2,\dots)$诸事件亦互斥。所以:
$$
\begin{align}
P(A) =&P(AB_1)+P(AB_2)+\dots\\
=&P(A|B_1)P(B_1)+\\&P(A|B_2)P(B_2)+\dots
\end{align}
$$

此公式可以从两个角度看,一个是实用的角度,有时候直接求得$A$的概率在实践中是基本不可能的。但是可以找到一个必然事件,同时它又能被拆分成诸互斥事件,再从互斥事件出发一步一步地在实践中求得其概率,再加总得到我们想要的$P(A)$。从哲学的角度看,这就是把一个事件可能的所有原因都列出来,分别研究它们对结果可能性的贡献,求得一个总可能性。

贝叶斯公式

贝叶斯公式可以看成
$$
\begin{align}
P(AB) &=P(A|B)P(B)\\
&=P(B|A)P(A)
\end{align}
$$
的某种变形,上述这个公式其实就是条件概率。条件概率可以理解成一种“因果相关性”,那么$(1)$就是从B到A发生的可能性,$(2)$就是从A到B。再抽象一点就是从前往后的相关性和从后往前的相关性。这里的差异是时间的差异。

贝叶斯公式严格来说是:
$$
\begin{align}
P(B_i|A) &=\frac{P(AB_i)}{P(A)}\\
&=\frac{P(B_i)P(A|B_i)}{\sum_j P(B_j)P(A|B_j)}
\end{align}
$$
贝叶斯公式的推导过程首先是把条件概率倒了次序,其后用了一下全概率公式。产生了很神奇的结果,在结果和原因之间描绘出了一种量上的联系。原来是原因推结果现在变成了结果推原因$A$到$B_i$,知道了结果发生,它是因为某种原因产生的概率是多少呢?这通过计算该原因产生结果的概率在所有原因产生结果概率之和得出。

《概率论小结(1)》上有2条评论

  1. 对于全概率公式,也可以将A的概率看成一种带权求和,其中条件概率就是权重,B的概率就是基本数据。

    1. 是的,但是数据本身只是一串数字,意义是人加在数字上的东西,所以要超出公式本身借用其它概念来理解公式。我认为在用“因果”来理解全概率公式是在抽象和实用间取得了一个平衡。当然在形式上确实也可以理解成带权求和,很对

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注