初等的机率论(2)代表值与参差度(Various Means

连结:初等的机率论(1)母群体与统计变量

摘要:延续上篇的讨论,本篇针对「记述统计学」面临的两个基本问题,介绍了代表整体数据的「算术平均(arithmetic mean)」、以及衡量代表值好坏的「变异数(variance)」或「标準差(standard deviation)」。

记述统计学最初的问题,可以很具体地来说明。如果校长问我:「他们这次期中考的成绩怎幺样?」,我该怎幺报告?给他整堆数据 $$\{x_1,x_2,\dots,x_N\}$$ 是无用的。

对于学生的家长我要答以他子女的成绩就好了。对于校长,个别学生的成绩他没兴趣听,他要知道的是全班的概况,例如最重要却也是最起码的两件事:

(甲)全班成绩大致如何?
(乙)全班成绩是否参差不大?

校长不一定满意于一个笼统的,定性的说法,如「大体很好,参差不大」,他要一个更精确的,定量的说法。于是,我必须把整堆数据 $$\{x_1,x_2,\dots,x_N\}$$ 精练成为两个数字:代表值参差度。用它们来表现整堆数据的概况,我要给校长报告的就是这两个数字。

我们先强调两点:

    通常人只想到(甲),这是用一个数字来代表全部的数据,那几乎是太粗鲁了!显然(乙)也很重要,用来衡量代表值的好坏。统计数据本身才是完整的资料,(古典的)记述统计就是需要这幺完整的资料 $$X:\{x_1,x_2,\dots,x_N\}$$,而(近代的)数理统计并不肯花精力得到它(通常是做不到,或太贵了。)无论如何,将 $$X$$ 变成两个数值,当然是资讯(information)的大大浓缩(或损失)。对于某些事或某些人(如校长),这剩下的资讯就很够用了。对某些事,这却不够。

如何选取代表值?如何定义参差度?

最通行的是採用算术平均 $$\overline{X}$$(arithmetic mean)当代表值,变异数 $$var(X)$$(variance)当参差度,定义如下:

$$\displaystyle \overline{X}\equiv\mu=\frac{1}{N}\sum^{N}_{k=1}x_k$$

$$\displaystyle var(X)\equiv\sigma^2=\frac{1}{N}\sum^{N}_{k=1}(x_k-\mu)^2$$

我给校长的报告就是:「本班本次考试成绩为 $$\mu\pm\sigma$$」,其中 $$\sigma$$ 叫做标準偏差(standard deviation):

$$\displaystyle\sigma=\sqrt{\frac{1}{N}\sum^{N}_{k=1}(x_k-\mu)^2}$$

我们必须再强调这一点:採用这种「算术平均 $$\pm$$ 标準差」制,是最常见的,甚至是最方便的制度。但是它一点儿也不是唯一的制度。例如,代表值除了算术平均之外,还有中位数、众数等。

用算术平均 $$\mu$$ 这个值来代表全班的成绩,我们要如何衡量这个代表值的好坏?这就是变异数 $$\sigma^2$$ 与标準差 $$\sigma$$ 的由来。我们说明如下:

某生考 $$x_{k}$$ 分,用 $$\mu$$ 来代表,就有误差 $$x_{k}-\mu$$,

总误差 $$\displaystyle\sum_{k=1}^{N} (x_{k}-\mu)$$ 或总误差的平均 $$\displaystyle\frac{1}{N}\sum_{k=1}^{N} (x_{k}-\mu)$$ 显然都为 $$0$$,

内力互相抵销,所以不论用总误差或总误差的平均都无法反应代表值 $$\mu$$ 的好坏。

改用总绝对误差的平均 $$\displaystyle\frac{1}{N}\sum_{k=1}^{N} |x_{k}-\mu|$$,内力不互相抵销了,但是绝对值不好处理。

于是再改为总误差平方的平均 $$\displaystyle\frac{1}{N}\sum_{k=1}^{N} (x_{k}-\mu)^2$$,这就是变异数 $$\sigma^2$$ 的由来,

取其平方根就是标準差 $$\sigma$$。

变异数与标準差都是用来衡量,算术平均 $$\mu$$ 这个代表值好坏的一根好尺度:

当 $$\sigma^2$$ 越大时,就表示数据相对于 $$\mu$$ 的分散程度越大;
当 $$\sigma^2$$ 越小时,就表示数据越集中于 $$\mu$$ 的附近。

因此,当 $$\sigma^2$$ 或 $$\sigma$$ 越大时,就表示学生的程度越参差不齐,代表值 $$\mu$$ 越不好;
当 $$\sigma^2$$ 或 $$\sigma$$ 越小时,就表示学生的程度较整齐,代表值 $$\mu$$ 也越好。

连结:初等的机率论(3)两个重要的不等式

参考书目:

注:通常要讲述机率论必须用到「测度积分论」的数学工具,或至少要用到微积分。因此要为一般读者介绍机率论的读物诚属不容易。上述八本书尽量压低要用到的数学工具,大部分只需排列与组合,只有少部份要用到一点儿微积分。

从科学方法论的观点来看,机率论与统计学是一体的两面,机率论是「演绎法」,统计学是「归纳法」。因此,本文的主题虽然是机率论,但是也顺便介绍一点点统计学的概念。



相关推荐