平均值、中位数、众数
均值、中位数和众数是主要的集中趋势的度量用于描述性统计它们彼此完全不同,用于汇总数据的情况也不同。
的意思是
算术平均值是数据值的和除以数据值的数量,即。
(乳胶){x} = \ \酒吧压裂{1}{n} \ sum_ {i = 1} ^ {n}间{我}= \压裂{间的{1}+间的{2}+间{3}+……+间{n}} {n}[/乳胶]
如果数据来自一个样本空间,它被称为样本均值((乳胶)\酒吧{x}[/乳胶]),是样本的描述性统计。虽然它是一个样本最常用的描述性度量,但它不是一个稳健的统计。它对异常值和振荡非常敏感。
例如,考虑一个特定城市市民的平均收入。因为所有的数据值都是加起来再除以的,一个非常富有的人的收入对平均值的影响很大。因此,平均值总是不能很好地表示数据。
此外,在交流信号的情况下,通过元件的电流周期性地从正方向到负方向变化,反之亦然。如果我们取在一个周期内通过该元件的平均电流,它将给出0,这意味着没有电流通过该元件,这显然不是真的。因此,在这种情况下,算术平均值也不是一个很好的衡量标准。
当数据分布均匀时,算术平均值是一个很好的指标。对于正态分布,均值等于众数和中位数。在考虑均方根误差时,它的残差最小;因此,当需要用一个数字来表示一个数据集时,最好的描述度量。
中位数
将所有数据值按升序排列后,中间数据点的值定义为数据集的中位数。中位数是第2个四分位数,第5个十分位数和第50个百分位数。
•如果观察数据的个数(数据点)是奇数,那么中位数就是恰好位于有序列表中间的观察数据。
•如果观测数据的个数(数据点)是偶数,那么中位数是有序列表中两个中间观测数据的平均值。
观察组中位数分为两组;即一组(50%)值高于中位数,另一组(50%)值低于中位数。中位数专门用于倾斜分布,比算术平均值更好地表示数据。
模式
模态是一组观测中出现次数最多的数。数据集的模式是通过找到数据集中每个元素的频率来计算的。
•如果没有值出现一次以上,则数据集没有模式。
•否则,任何出现频率最高的值都是数据集的一种模式。
在一个集合中可以存在不止一种模式;因此,模式不是数据集的唯一统计信息。在均匀分布中,只有一种模式。离散概率分布的模态是概率质量函数达到最高点的点。从以上的解释来看,我们可以这样说全球最大是模式。
考虑对以下数据集应用所有三种度量方法。
数据:{1,1,2,3,5,5、5、5、6、6、8、8、9日,9日,9日9,9、10、10、10、14日,14日,15日,15日,15}
均值= (1+ 1+ 2+ 3+ 5+ 5+ 5+ 5+ 6+ 6+ 8+ 8+ 9+ 9+ 9+ 9+ 10+ 10+ 14+ 14+ 15+ 15+ 15)/ 25 = 8.12
中位数= 9(第13个元素)
模式= 9(频率9 = 5)
均值、中值和众数之间的区别是什么?
算术平均值是观测值(观测值)除以观测次数的总和。它不是一个稳健的统计量,并且严重依赖于所考虑的分布的正态分布性质。单个异常值可能会导致平均值发生显著变化,给出相对具有误导性的值。这个概念可以推广到几何均值、调和均值、加权均值等。
•中位数是一组观测值的中间值,它相对较少受到异常值的影响。作为高度倾斜情况下的汇总统计,它可以给出一个很好的估计。
•模式是数据集中最常见的观测值。如果分布是正偏态的,则众数位于中位数的左边;如果是负偏态的,则众数位于中位数的右边。
•如果正偏,则均值右于中位数;如果负偏平均值在中位数的左边。
•在正态分布中,平均值、众数和中位数三者是相等的。
留下一个回复