- 1. 均值mean 中位数median 众数mode
- 2. 极差range 中程数mid-range
- 3. 象形统计图 pictograph
- 4. 条形图 bar graph
- 5. 线形图 line graph
- 6. 饼图 pie chart or pie graph
- 7. 误导人的线形图
- 8. 茎叶图 Stem-and-Leaf plot
- 9. 箱线图 box and whiskers
- 10. 箱线图2
[KhanStatistics-XX…]系列,参考可汗学院公开课:统计学
1. 均值mean 中位数median 众数mode
- 均值: 通常意义上的平均值,反映一组值的集中趋势,通过求和后除以个数得到平均值。
- 中位数: 一组数中间位置的数,对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,则中位数不唯一,通常取最中间的两个数值的平均数作为中位数。这也是反映集中趋势的另一种方式。计算公式如下:
- 众数: 数据集中出现次数最多的数字。
2. 极差range 中程数mid-range
- 极差:反映一组数字分开有多远,最大值减去最小值,越大越分散,越小越紧密。
- 中程数:最大值和最小值的取和平均值,也是反映数据集中趋势的一项指标。对极大值和极小值是异常高度敏感,并且会忽略除极大值和极小值之外的所有数据点,所以它是一个非常不可靠的统计数据。此外,增加样品的最大值或者减少样品的最小值都会改变中程数的值。因此,在实际的统计数据中没有什么用处,除非已经处理异常值。
3. 象形统计图 pictograph
用象形图像表示数据的一种方式,形象易懂。如下图:
4. 条形图 bar graph
条形图也叫柱状图,是一种很好的分类汇总工具图,能进行二维数组的比较,维度1表示学生,维度2表示两组不同的成绩,比如 维度2中还可以继续追加其他时期的成绩。如果再追加一个维度后该如何表现呢,比如维度1表示学生,维度2表示科目,维度3表示各时期的成绩。
条形图,很好的表现了多个对象,不同时期之间的属性变化。
[
[73,78]
[86,84]
[]
...
]
5. 线形图 line graph
线性图,用数据点描述出来,然后连线成图像,表示变化趋势,适合用来表示随时间变化的事物。 与上面条形图类似,都是对二维数组的图形呈现,但是与条形图的侧重点不同,可以根据不同业务需要进行选择。
- 条形图,侧重于不同对象之间的对比。
- 线性图,侧重于同一对象不同时期的对比。
6. 饼图 pie chart or pie graph
饼图主要表示比例,比重,一部分占总体的内容,而柱形图,更适宜展现两个量之间的比较差值。对一维数据的图形呈现。 例如下面的一年内的消费额,一眼就能看出哪个分类消费额最大。
7. 误导人的线形图
下面是两家饮料公司的消费者喜好比数据的对比,咋一看去觉得第二个更不错,但其实是误导,这两个图有:
- 对比基数不同,前者起点是50%,后者是0%,所以看上去旗鼓相当。
- 对比的刻度不同,所以后者看起来增长很快。
如果要正确对比的话,要放到同一个坐标中去比对。
8. 茎叶图 Stem-and-Leaf plot
茎叶图Stem-and-Leaf plot,它的思路:
- 将数组中的数,按位数进行比较,数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶).
- 叶在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。
如下茎叶图,是一个球队的12名球员得分,从大到小分别是20 18 13 11 11 …,能一目了然的看清楚分布情况:
Stem 茎 | Leaf 叶 |
---|---|
0 | 0 0 2 4 7 7 9 |
1 | 1 1 3 8 |
2 | 0 |
9. 箱线图 box and whiskers
参考 智库百科-箱线图,有很详细的描述。
盒须图(box and whiskers):又称为箱形图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名, 最适宜提供有关数据的位置和分散的参考。
是利用数据中的五个统计量:最小值
、第一四分位数
、中位数
、第三四分位数
与最大值
来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。
四分位数:人们经常会将数据划分为4个部分,每一个部分大约包含有1/4即25%的数据项。这种划分的临界点即为四分位数
9.1 箱线图实例
下面是一组顾客具体餐厅的距离值,依据它作出箱线图:
14 6 3 2 4 15 11 8 1 7 2 1 3 4 10 22 20
- 排序:
1 1 2 2 3 3 4 4 6 7 8 10 11 14 15 20 22
- 找出中位数:
6
- 找出上面中位数
左侧
部分的中位数(第一
个四分位数):2.5
- 找出上面中位数
右侧
部分的中位数(第三
个四分位数):12.5
- 画出坐标轴(最小值 -> 最大值)
10. 箱线图2
箱线图的定义如下:
扩展图: 同一个坐标轴上,多个对象的数据位置和分布状况: