Haste makes waste

KhanStatistics-03-随机变量与二项分布

Posted on By lijun

[KhanStatistics-XX…]系列,参考可汗学院公开课:统计学


1. 随机变量 Random Variable

分为离散随机变量discrete和连续随机变量continuous。

  • 离散随机变量,比如随机仍骰子,每个骰子的出现的几率是1/6,取值可能性有限。
  • 连续随机变量即,在一个无法穷举的常量集中,有可能随机出现,比如降雨量,有可能是1.1也可能是1.2也可能是1.3344等等。

离散随机变量,根据变量分布几率,可分为均匀分布和非均匀分布,以扔骰子为例子:

image

image

在上面非均匀分布中,P(X≥5) = 1/2 .

2. 概率密度函数

image

如上图中,以降雨量为例,降雨量是一个连续的随机变量,不能说P(X=2)为多少,因为降雨量正好是2的概率几乎不可能,只能是一个区间,比如P(|X-2|<0.1),即降雨量在1.9和2.1的概率为多少。 通过微积分可以得到结果。

在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。

3. 二项式分布

3.1 示例1:扔硬币五次

以丢硬币为例子,5个硬币,有正反面:

  1. 没有正面的概率,即全是反面的概率为(1/2)**5
  2. 一个为正面的概率: 按顺序出现 正反反反反 的概率与上面一样,因为每个都是1/2的概率,故为1/32的概率,但是这里一个为正面的概率是不关心顺序的,所以其中一个为正面的可能位置有5种,则概率为 5/32
  3. 两个为正面的概率是: 与上面的思路有所不同,第一个正面能出现的位置有5处,第二个正面能出现的位置有4处,排列组合后,但是是不关心两次正面所出现的顺序的,则可能的位置有 5*4 /2 中,而5个硬币正反组合,可能有32种情况,最后概率为 10/32 即 5/16.
  4. 三个正面的概率,与两个反面的概率是一样的,而两个反面概率与两个正面概率是一样的,最后是5/16。
  5. 四个正面的概率与四个反面一样,而四个反面与一个正面是一样的,概率是5/32。
  6. 五个正面的概率,1/32。

描画成图形,就是下面的二项式分布:

image

3.2 示例2:投球6次(投入概率为30%)

上面的例子比较特殊,正反面的概率是一样的都是50%,下面举例投球,每次投入的概率是30%.

  1. 没有投中的概率是,(0.7)**6,即6次每次都是0.7的概率。
  2. 投中一次的概率,与上面思路一样,中丢丢丢丢丢的概率是 0.3*(0.7)5,共有6种可能case,则概率是 60.3(0.7)5
  3. 投中两次的概率,中中丢丢丢丢的概率是((0.3)2)((0.7)4),共有(65)/2种case,则投中概率是 15((0.3)2)((0.7)4).
  4. 投中三次的概率是,中中中丢丢丢的概率是((0.3)*3)((0.7)3),共有(654)/(321)种case,则投中概率为 20((0.3)*3)((0.7)*3)。
  5. 投中四次,投中5次,投中6次都以此类推。

后面计算多少种case,实际是排列组合,比如6次中取3次的取法组合为 6!/((3!)(6-3)!)。

  • 组合数:从m个不同元素中任取n(n<=m)个元素拼成一组,叫做从m中取n个元素的组合。能够取的所有可能叫组合数。公式为: image

image

3.3 Excel作图

image

  • 修改投中概率分别为0.5和0.5,左右分布均匀。

image

  • 投中概率:投丢概率 = 0.7:0.3,与最初的分布正好相反了。

image