Haste makes waste

KhanStatistics-02-集中趋势与方差

Posted on By lijun

[KhanStatistics-XX…]系列,参考可汗学院公开课:统计学


1. 统计:集中趋势

统计学大体可分为2类:

1.描述性统计 discriptive:假设有一大堆数据,却希望在不告诉别人所有数据的情况下,可以找一些指示性的数据来代表所有数据,而无需将所有数据都说一次。

2.推断性统计 inferential:运用数据来对实物做结论, 假设从总体得到一些样本,从分析这些样本而推断出总体。

  • Mean (Arithmatic) 算术平均数\ Median 中位数 \ Mode 众数. 引入集中趋势的概念, 使用中位数和众数不会受最大数的影响,更有代表性 .
  • outlier–离群值,与其它数不一样的数,有此数时,中位数和众数比算术平均数更能体现该组数的集中趋势。

2. 统计:样本sample和总体population

  • μ = population mean 总体均值
  • x = sample mean 样本均值
  • Σ:sigma 求所有样本Xn之和。

image

3. 统计:总体方差 variance of population

measures of dispersion:离中趋势的衡量 如下有两组值,分别是 2,2,3,3 和 0,0,5,5,其平均值都是2.5。 总体方差是通过每个值与总体均值之间差值平方之和,然后求平均得到。 公式参考下图:

image

4. 统计:样本方差 variance of sample

上面讲述了总体方差,样本方差与之类似,只是统计的对象是总体中抽取的样本。 推论统计就是对样本进行描述性统计,然后推论统计得到总体。 image

但是上面的样本方差是由偏差的,样本的无偏方差公式如下: image

为什么分母是 n-1而不是n呢,这是因为: image

所以样本方差通常都会比总体方差要小,除非样本平均X与总体平均u正好相等。 那么,在不知道随机变量真实数学期望的前提下,如何“正确”的估计方差呢?答案是把上式中的分母n换成n-1,通过这种方法把原来的偏小的估计“放大”一点点,我们就能获得对方差的正确估计了: image

详细可以参考 知乎:为什么样本方差(sample variance)的分母是 n-1?

5. 统计:标准差

标准差(英语:Standard Deviation,SD),数学符号 σ(sigma),在概率统计中最常使用作为测量一组数值的离散程度之用。标准差定义:为方差开算术平方根,反映组内个体间的离散程度;标准差与期望值之比为标准离差率。

image

image