Haste makes waste

Udacity-描述统计学-03-集中趋势(均值,众数,中位数)

Posted on By lijun

3. 选择哪种数字?

选择哪个数字或者至少一个很小范围内的数字,来精确代表护理或地理专业的典型薪资水平?

下面是三种测量中心的方式,众数,中位数以及平均值。

image

5. 分布的众数 mode

众数顾名思义,即出现次数最多的数(频率最大的值),可以是单个值也可能是一个范围。

image

6. 负偏斜分布与均匀分布与双峰分布

  • 负偏斜分布,存在众数

image

  • 均匀分布(Uniform distribution),没有众数

image

  • 双峰分布(bimodal distribution),存在多个众数

image

因为鞋码分为男和女,分别有其峰值。

14. 平均值- 数学符号 mean

前面的公式,表示样本的均值,后面的公式是总体的均值,n表示样本数量,N表示总体数量。

image

19. 中位数 median

平均值容易受到异常值的影响,中位数可以解决这个问题,它不容易受到异常值的影响。

中位数的计算,先排序,奇数个时候中位数位于中间,偶数个取中间两个数的平均值。

image

mode,mean,median是三种测量中心的方法,通常中位数即median能很好的反应集中趋势。

24. 多种中心测量方式比较

  • 对称分布

中间频率最高,即mode众数,该图形呈对称分布,其均值mean与中位数median相等。

例如数据集: 1,2,2,3,这是一个对称分布的,1和3各出现一次,2出现二次,故 2 是众数,中位数为2+2/2 = 2,均值为(1+2+2+3)/4 = 2

image

  • 偏左分布

image

29. 中位数位置计算公式

image

30. 中心测量方法的比较

image

评价指标分别是:

  • 有一个简单的公式
  • 如果数据集中有数据的值变化,它也一定会变化
  • 不受组距变化的影响
  • 不易受到异常值的影响
  • 容易在直方图上找到

练习4-分布

image

四个选项的意思分别是:

  • 正态分布
  • 双峰分布
  • 偏斜分布
  • 均匀分布

正向倾斜分布和负向倾斜分布:

image

关于正态分布:

正态分布中,三个中心测量指标都是相等的。

image

正向倾斜分布:

image

练习9:中位数

image

练习10:众数

image

99. 术语

  • equation:方程式
  • outlier:异常值
  • symmetrical:对称的
  • even:偶数
  • odd:奇数