几种常见的数学分布

#数学

1. 什么是数学期望

  举个例子:某城市有 10 万个家庭,没有孩子的家庭有 1000 个,有一个孩子的家庭有 9 万个,有两个孩子的家庭有 6000 个,有 3 个孩子的家庭有 3000 个

(0 * 1000 + 1 * 90000 + 2 * 6000 + 3 * 3000) / 100000 = 1.11

  数学期望 (mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和

0 * 0.01 + 1 * 0.9 + 2 * 0.06 + 3 * 0.03 = 1.11

2. 概率密度与累积分布

  概率密度一般的写法是:P(X=a) = …,即 X 等于某个值 a 的可能性
  累积分布一般的写法是:P(X<=a) = …,即 X 小于等于某个值 a 的所有可能性累加之和
  这二者千万别弄混,否则就会被各种公式绕晕。下图是增量分布的概率密度图(橙色)和累积分布图(蓝色)。

3. 常见的分布

(1) 离散分布:

伯努利分布(零一分布,两点分布),二项分布,几何分布,泊松分布(Poisson 分布)

(2) 连续分布:

指数分布,正态分布(高斯分布),均匀分布

(3) 抽样分布:

卡方分布(X2分布),F 分布,T 分布

(4) 其它分布:

多项分布,Beta 分布,Dirichlet 分布

4. 伯努利分布

(1) 应用场景

  应用于两种实验结果。要么成功,要么失败,一定程度上是二元的性质。比如:一个硬币抛一次人结果。

(2) 描述

  进行一次事件试验,该事件发生的概率为 p,不发生的概率为 1-p,任何一个只有两种结果的随机现象都服从 0-1 分布。

5. 二项分布

(1) 应用场景

  在独立 n 次实验中成功次数,比如:一个硬币抛 n 次,k 次正面朝上。

(2) 描述

  上图是 n=100, p=0.5(抛硬 100 次, 每一枚硬币正面朝上的概率为 0.5),图中横轴为正面朝上的次数,纵轴为概率,可以看出正面朝上 50 次的可能性最大,为 0.08 左右。

6. 泊松分布

(1) 应用场景

  某一区间内发生随机事件次数的概率分布,比如:每小时出生 3 个婴儿,某网站平均每分钟有 2 次访问。

(2) 描述

  一个离散型随机变量 X 满足:

  这样看起来就很抽象了,推荐看一看参考中的《如何通俗理解泊松分布》,简单地说一下上述公式怎么用,以出生婴儿为例,λ是每小时出生的婴儿的平均数,k 是 3 个婴儿,P(X=3) 是每小时出生 3 个婴儿的概率。从λ中我们就能看出单位时间和发生事件的大概关系。

  上图是λ=2 时(平均每小时出生 2 个婴儿),出生 0 个的概率为 0.14,出生 1 个的概率为 0.27…

7. 几何分布

(1) 应用场景

  第一次成功所进行的试验次数,比如:考几次能通过,抛几次硬币能出现正面。

(2) 描述

  几何分布由 n 次伯努利分布构成,随机变量 X 表示第一次成功所进行试验的次数

  从公式中很容易看出,经历了 k-1 次不中,和一次命中,以抛硬币为例,P(X=3) 是抛三次能抛到一次正面向上概率,前两次都是背面朝上,第三次正面朝上。如果单个硬币正面朝上的概率为 0.5,那么期望是 2 次。与二项分布相比,二项分布是抛 n 次硬币,有几次正面朝上,几何分布是抛几次出现第一次正布朝上。

  上图是 p=0.5 时的几何分布,横轴是次数,可见抛一次就中的可能性最大为 0.5,两次中的可能性为 0.25…,次数越多,概率越小,整体平均下来基本是两次左右,因此,期望为 2。从期望就可以看出,抛第几次能出正面,主要还是取决于硬币本身正面朝上的概率。

8. 指数分布

(1) 应用场景

  两次随机事件发生时间间隔的概率分布,比如:婴儿出生的时间间隔,网站访问的时间间隔。

(2) 描述

  指数分布满足以下概率密度函数公式

 λ> 0 是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间内发生某事件的次数,还是生小孩为例,公式中的 x 是生两个孩子的时间间隔。   假设平均每一小时出生两个婴儿,则单位时间 1 小时出生 2 个婴儿,λ=2,期望 e=0.5(平均间隔 0.5 小时),如左图所示。

  假设平均每两小时出生一个婴儿,则单位时间 1 小时出生 0.5 个婴儿,λ=0.5,期望 E=2(平均间隔 2 小时),如右图所示。λ越大,曲线下降越快,可见,指数分布是几何分布的加强版。

  上图中 x 轴是时间间隔,y 轴是概率,不是说概率之和为 1 吗?为什么间隔为 0 的概率大于 1 呢?因为这是连续分布,某一点概率大于 1(但它所在区域很窄),也不影响函数线下面积之和为 1。

9. 正态分布

(1) 应用场景

  连续型数据或者数据离散性小,数据基本符合正态分布特点。比如:群体的身高,智商,考试分数(中间多两边少)。

(2) 描述

  若随机变量 X 服从一个数学期望为μ、方差 o^2 为的高斯分布,记为 N(μ,o^2)

  上图是μ=1, o=2.0 的正态分布,简单地说,就是基本都分布在以μ为中心,分散在 o 范围之内,比如:全班平均分 80 分,考 100 的也少,不及格的也少。

10. 抽样分布

(1) 一些概率

  1. 抽样
      如果整体样本可以一个一个判断叫普查,如果整体样本太多,没法一个一个判断,只能取一部分代表整体,叫抽样。

  2. 统计量
      统计量是根据样本数据计算出来的一个量,他是样本的函数,通常我们所关心的样本统计量有品均数、样本标准差等等。

  3. 抽样分布
      抽样分布也称统计量分布,以样本平均数为例,它是总体平均数的一个估计量,如果按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次可以计算一个平均数,所有可能样本的平均数所形成的分布,就是样本平均数的抽样分布。卡方分布,T 分布,F 分布都是抽样分布。

(2) 卡方分布

  设 X1,X2,......Xn 相互独立, 都服从标准正态分布 N(0,1), 则称随机变量χ2=X12+X22+......+Xn2 所服从的分布为自由度为 n 的χ2 分布.

(3) T 分布

  设 X1 服从标准正态分布 N(0,1),X2 服从自由度为 n 的χ2 分布,且 X1、X2 相互独立,则称变量 t=X1/((X2/n)^(1/2)) 所服从的分布为自由度为 n 的 t 分布。

(4) F 分布

  设 X1 服从自由度为 m 的χ2 分布,X2 服从自由度为 n 的χ2 分布,且 X1、X2 相互独立,则称变量 F=(X1/m)/(X2/n) 所服从的分布为 F 分布,其中第一自由度为 m,第二自由度为 n。

11. 参考

(1) 几种常见的分布

https://wenku.baidu.com/view/dc16311a777f5acfa1c7aa00b52acfc789eb9f04.html

(2) 如何通俗理解泊松分布

https://blog.csdn.net/ccnt_2012/article/details/81114920