常用描述性统计

 

概念介绍

描述性统计是对数据集的基本特征进行概括和描述的统计方法。它主要用于总结和展示数据的集中趋势、离散程度、分布形状等特性,能够帮助我们快速理解数据的基本情况,是数据分析的基础步骤。

集中趋势的描述性统计
均值(Mean)
  • 定义:将所有数据相加后除以数据的个数。例如,对于数据集(x = {1, 2, 3, 4, 5}),均值(\bar{x}=\frac{1 + 2 + 3 + 4 + 5}{5}=3)。
  • 用途:用于描述数据的中心位置,适用于数据分布较为对称的情况,在分析总体水平时常用。例如,计算班级学生的平均成绩来了解整体学习水平。
  • 局限性:易受极端值影响。如在数据集({1, 2, 3, 4, 100})中,均值为(22),但大部分数据远低于此值。
中位数(Median)
  • 定义:将数据按升序或降序排列后,位于中间位置的数值。如果数据个数为奇数,中位数就是中间的那个数;如果是偶数,则是中间两个数的平均值。对于数据集({1, 2, 3, 4, 5}),中位数是(3);对于({1, 2, 3, 4}),中位数是(\frac{2 + 3}{2}=2.5)。
  • 用途:当数据存在极端值时,能更好地反映数据的中心趋势。比如统计城市居民收入,少数高收入者拉高均值时,中位数更能体现中等收入水平。
众数(Mode)
  • 定义:数据集中出现次数最多的数值。例如,在数据集({1, 2, 2, 3, 4})中,众数是(2)。
  • 用途:适用于描述数据的一般情况,特别是对于分类数据。例如,统计服装销售中最受欢迎的尺码,众数尺码就是销售最多的尺码。
离散程度的描述性统计
极差(Range)
  • 定义:用最大值减去最小值。在数据集({10, 20, 30, 40, 50})中,极差为(50 – 10 = 40)。
  • 用途:简单直观地描述数据的离散范围。用于初步了解数据的波动程度,如比较不同产品质量指标的波动范围。
  • 局限性:只考虑了两个端点的值,忽略中间数据的分布情况。
方差(Variance)
  • 定义:计算每个数据与均值之差的平方和的平均数。公式为(s^{2}=\frac{\sum_{i = 1}^{n}(x_{i}-\bar{x})^{2}}{n})(对于样本数据)。例如,对于数据集({1, 3, 5}),均值为(3),方差为(\frac{(1 – 3)^{2}+(3 – 3)^{2}+(5 – 3)^{2}}{3}=\frac{8}{3})。
  • 用途:衡量数据相对于均值的分散程度,方差越大,数据越分散。在质量控制、金融风险评估等领域应用广泛。
标准差(Standard Deviation)
  • 定义:方差的平方根。如上述数据集({1, 3, 5})的标准差为(\sqrt{\frac{8}{3}})。
  • 用途:与方差类似,但标准差的单位与原始数据相同,更直观地反映数据的离散程度。例如,在分析学生成绩的离散程度或股票价格波动时常用。
分布形态的描述性统计
偏度(Skewness)
  • 定义:描述数据分布不对称程度的统计量。正偏态(右偏态)表示数据的长尾在右侧,即有少数较大的值;负偏态(左偏态)表示长尾在左侧,有少数较小的值。
  • 用途:用于分析数据分布的形状。例如,收入数据通常呈正偏态,因为少数高收入者使分布右侧长尾较长,通过偏度可以了解这种不对称性。
峰度(Kurtosis)
  • 定义:衡量数据分布在均值处峰值高低的统计量。与正态分布相比,超高峰度表示数据分布更尖峭,低峰度表示更平坦。
  • 用途:在分析数据是否符合正态分布或比较不同数据集的分布形态时有用。例如,在金融市场分析中,峰度可以帮助评估资产价格波动的特性。
位置的描述性统计
四分位数(Quartiles)
  • 定义:将数据分为四等份的三个数值,分别是第一四分位数((Q_{1}),下四分位数)、第二四分位数((Q_{2}),中位数)和第三四分位数((Q_{3}),上四分位数)。例如,对于数据集({1, 3, 5, 7, 9, 11, 13}),(Q_{1}=3),(Q_{2}=7),(Q_{3}=11)。
  • 用途:可以更详细地描述数据的分布情况。通过四分位距((Q_{3}-Q_{1}))来衡量数据中间50%的离散程度,不受极端值影响,常用于制作箱线图展示数据分布。
百分位数(Percentiles)
  • 定义:如果将一组数据从小到大排序后,某个百分位数(p)对应的数值是这样一个数:至少有(p%)的数据小于或等于这个数,且至少有((100 – p)%)的数据大于或等于这个数。例如,第90百分位数表示有90%的数据小于或等于这个数。
  • 用途:在教育领域用于划分成绩等级,在医学领域用于评估生理指标在人群中的分布位置等。
计数的描述性统计
频数(Frequency)
  • 定义:指某个数值或某个区间内的数据在数据集中出现的次数。例如,在数据集({1, 1, 2, 2, 2, 3})中,数值(1)的频数是(2),数值(2)的频数是(3),数值(3)的频数是(1)。
  • 用途:用于制作频率分布表或直方图,直观展示数据的分布情况。例如,在市场调查中统计消费者对不同产品特性的选择频数。
频率(Frequency Ratio)
  • 定义:某个数值或区间的频数除以数据总数得到的比例。对于上述数据集,数值(1)的频率是(\frac{2}{6}),数值(2)的频率是(\frac{3}{6}),数值(3)的频率是(\frac{1}{6})。
  • 用途:用于将频数转换为相对比例,在概率估计和比较不同数据集的分布比例时很有用。例如,在选举民意调查中,频率可以估计不同候选人的支持比例。
发表评论
暂无评论