Haste makes waste

KhanStatistics-01-基本概念及统计图表

Posted on By lijun

[KhanStatistics-XX…]系列,参考可汗学院公开课:统计学


1. 均值mean 中位数median 众数mode

  • 均值: 通常意义上的平均值,反映一组值的集中趋势,通过求和后除以个数得到平均值。
  • 中位数: 一组数中间位置的数,对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,则中位数不唯一,通常取最中间的两个数值的平均数作为中位数。这也是反映集中趋势的另一种方式。计算公式如下:

image

  • 众数: 数据集中出现次数最多的数字。

2. 极差range 中程数mid-range

  • 极差:反映一组数字分开有多远,最大值减去最小值,越大越分散,越小越紧密。
  • 中程数:最大值和最小值的取和平均值,也是反映数据集中趋势的一项指标。对极大值和极小值是异常高度敏感,并且会忽略除极大值和极小值之外的所有数据点,所以它是一个非常不可靠的统计数据。此外,增加样品的最大值或者减少样品的最小值都会改变中程数的值。因此,在实际的统计数据中没有什么用处,除非已经处理异常值。

3. 象形统计图 pictograph

用象形图像表示数据的一种方式,形象易懂。如下图:

image

4. 条形图 bar graph

条形图也叫柱状图,是一种很好的分类汇总工具图,能进行二维数组的比较,维度1表示学生,维度2表示两组不同的成绩,比如 维度2中还可以继续追加其他时期的成绩。如果再追加一个维度后该如何表现呢,比如维度1表示学生,维度2表示科目,维度3表示各时期的成绩。

条形图,很好的表现了多个对象,不同时期之间的属性变化。

[
 [73,78]
 [86,84]
 []
 ...
]

image

5. 线形图 line graph

线性图,用数据点描述出来,然后连线成图像,表示变化趋势,适合用来表示随时间变化的事物。 与上面条形图类似,都是对二维数组的图形呈现,但是与条形图的侧重点不同,可以根据不同业务需要进行选择。

  • 条形图,侧重于不同对象之间的对比。
  • 线性图,侧重于同一对象不同时期的对比。

image

6. 饼图 pie chart or pie graph

饼图主要表示比例,比重,一部分占总体的内容,而柱形图,更适宜展现两个量之间的比较差值。对一维数据的图形呈现。 例如下面的一年内的消费额,一眼就能看出哪个分类消费额最大。

image

7. 误导人的线形图

下面是两家饮料公司的消费者喜好比数据的对比,咋一看去觉得第二个更不错,但其实是误导,这两个图有:

  • 对比基数不同,前者起点是50%,后者是0%,所以看上去旗鼓相当。
  • 对比的刻度不同,所以后者看起来增长很快。

如果要正确对比的话,要放到同一个坐标中去比对。

image

8. 茎叶图 Stem-and-Leaf plot

茎叶图Stem-and-Leaf plot,它的思路:

  1. 将数组中的数,按位数进行比较,数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶).
  2. 叶在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。

如下茎叶图,是一个球队的12名球员得分,从大到小分别是20 18 13 11 11 …,能一目了然的看清楚分布情况:

Stem 茎 Leaf 叶
0 0 0 2 4 7 7 9
1 1 1 3 8
2 0

9. 箱线图 box and whiskers

参考 智库百科-箱线图,有很详细的描述。

盒须图(box and whiskers):又称为箱形图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名, 最适宜提供有关数据的位置和分散的参考。

是利用数据中的五个统计量:最小值第一四分位数中位数第三四分位数最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。

四分位数:人们经常会将数据划分为4个部分,每一个部分大约包含有1/4即25%的数据项。这种划分的临界点即为四分位数

9.1 箱线图实例

下面是一组顾客具体餐厅的距离值,依据它作出箱线图: 14 6 3 2 4 15 11 8 1 7 2 1 3 4 10 22 20

  1. 排序: 1 1 2 2 3 3 4 4 6 7 8 10 11 14 15 20 22
  2. 找出中位数:6
  3. 找出上面中位数左侧部分的中位数(第个四分位数):2.5
  4. 找出上面中位数右侧部分的中位数(第个四分位数):12.5
  5. 画出坐标轴(最小值 -> 最大值)

image

10. 箱线图2

箱线图的定义如下:

image

扩展图: 同一个坐标轴上,多个对象的数据位置和分布状况:

image