第十章 方差分析

从形式上看,方差分析是比较多个总体的均值是否相等,但从本质上它所研究的是变量之间的关系。在研究一个(或多个)分类型自变量与一个数值型因变量之间的关系时,方差分析就是其中的主要方法之一。

1 方差分析引论

随着增加个体显著性检验的次数,偶然因素导致差别的可能性也会增加(并非均值真的存在差别)。而方差分析则是同时考虑所有样本,排除了错误累积的概率,从而避免拒绝一个真实的原假设

1 方差分析及其有关术语

方差分析(analysis ofvariance,ANOVA):通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
:分析四个行业之间的服务质量是否有显著差异,即判断“行业”对”投诉次数“是否有显著影响。
上述问题可转换为:检验四个行业被投诉次数的均值是否相等。
在方差分析中,所要检验的对象称为因素或因子。因素的不同表现称为水平或处理。每个因子水平下得到的样本数据称为观测值
在上例中,行业是要检验的对象,称为因素或因子;零售业、旅游业等行业的具体表现,称为水平或处理;在每个行业下得到的样本数据(被投诉次数)称为观察值。由于只涉及行业一个因素,因此称为单因素4水平的试验。

2 方差分析的基本思想和原理

为分析分类型自变量对数值型因变量的影响,需要从数据误差来源分析。
(1) 图形描述
(2) 误差分解
思想:通过对数据误差来源的分析来判断不同总体的均值是否相等,进而分析自变量对因变量是否有显著影响。
组内误差:同一总体下,观测值的差异,反映了一个样本内部数据的离散程度。只含随机误差。
组间误差:不同总体之间的差异,反映了不同样本间的离散程度。是随机误差和系统误差的总和。
总平方和:反映全部数据误差大小的平方和,反映了全部观察值的离散状况。
总平方和(SST)=组内平方和(SSE)+组间平方和(SSA)
组内平方和也称误差平方和或残差平方和
组间平方和也称因素平方和
(3) 误差分析
以上例为例,如果不同行业对投诉次数没有影响,那么在组间误差中只包含随机误差,而没有组内误差,这时组间误差与组内误差经过平均后的数值就会接近1:1,反之,组间误差与组内误差的比值会大于1,当比值达到一定程度时,因素的不同水平之间即存在显著差异。

3 方差分析中的基本假定

方差分析中的三个基本假定:
(1) 每个总体都应服从正态分布。例:每个行业被投诉的次数必须服从正态分布。
(2) 各个总体的方差σ²必须相同。各组观察值是从具有相同方差的正态总体中抽取的。
(3) 观察值是独立的。

4 问题的一般提法

设因素有k 个水平,每个水平的均值分别用μ 1 ,μ 2 ,...,μ k  表示,要检验k 个水平(总体)的均值是否相等:需要提出如下假设:
H 0 :μ 1 =μ 2 =...=μ k   自变量对因变量无显著影响
H 1 :μ 1 ,μ 2 ,...,μ k  不全相等 自变量对因变量有显著影响

2 单因素方差分析

根据所分析的分类型自变量的多少,方差分析可分为单因素方差分析和双因素方差分析。当方差分析中只涉及一个分类型自变量时称为单因素方差分析。

1 分析步骤

1 提出假设
2 构造检验的统计量
(1) 计算各样本的均值
n i  为第i 个总体的样本量,x ij  i 个总体的第j 个观测值,x i  ¯  为第i 个总体的样本均值
x i  ¯ = n i  j=1 x ij n i  ,i=1,2,...,k 
(2) 计算全部观测值的总均值
令总均值为x ¯  
x ¯ = k i=1  n i  j=1 x ij n  
(3) 计算各误差平方和
总平方和:SST= k i=1  n i  j=1 (x ij x ¯ ) 2  
组间平方和:SSA= k i=1 n i (x i  ¯ x ¯ ) 2  
组内平方和:SSE= k i=1  n i  j=1 (x ij x i  ¯ ) 2  
(4) 计算统计量
由于各误差平方和的大小与观察值的多少有关,为消除观测值多少对误差平方和大小的影响,需进行平均,即除以相应的自由度,这一结果称为均方。
总平方和的自由度为n1 ,其中n 为全部观测值个数
组间平方和的自由度为k1 ,其中k 为因素水平个数
组内平方和的自由度为nk 
根据方差分析思想,比较组内均方和组间均方的差异
组间均方:MSA=SSAk1  
组内均方:MSE=SSEnk  
H 0  为真时,二者的比值服从F分布,即
F=MSAMSE F(k1,nk) 
3 统计决策
将上步统计量的值F与给定显著性水平α 的临界值F α  进行比较,从而作出对原假设H 0  决策。
F>F α  ,则拒绝原假设H 0  ,即差异是显著的。
F<F α  ,则不拒绝原假设H 0  ,没有证据表明各个均值之间显著差异。

2 关系强度的测量

两个变量之间的显著程度,可以用组间平方和(SSA)占总平方和(SST)的比例大小来反映,即为R 2  ,即
R 2 =SSASST  
其平方根可以用来测量两个变量之间的关系强度

3 方差分析中的多重比较

若根据上述判断,不同水平下(不同行业被投诉次数)的均值不完全相同,但究竟哪些均值之间不相等?差异出现在哪些样本之间?则需要进一步分析,所用方法为 ,通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。
多重比较方法有多种,下面介绍最小显著差异方法,缩写为LSD(least significant difference)。步骤为:
(1) 提出假设:H 0 :μ i =μ j ,H 1 :μ i μ j  
(2) 计算检验统计量:x i  ¯ x j  ¯  
(3) 计算LSD,公式为
LSD=t α/2 MSE(1n i  +1n j  ) − − − − − − − − − − − − −    
式中t 分布自由度为nk n i  n j  分别是第i 个样本和第j 个样本的样本容量,MSE为组内方差。
(4)根据显著性水平α 作出决策。
如果|x i  ¯ x j  ¯ |>LSD ,则拒绝H 0  ;如果|x i  ¯ x j  ¯ |<LSD ,则不拒绝H 0  

3 双因素方差分析

当方差分析中涉及两个分类型自变量时,称为双因素方差分析
例:分析品牌、销售地区对电视销售量的影响。即分析究竟是一个因素在起作用,还是两个因素都起作用,还是两个因素都不起作用。
在双因素方差分析中,有两个影响因素,如果两个因素时相互独立的,分别影响因变量,则称为是无交互作用的双因素分析;如果除了单独影响,两个因素的搭配还会对因变量产生新的影响(如某个地区对某种品牌有某种偏好),则称为是有交互作用的双因素分析。

1 无交互作用的双因素方差分析

两个因素一个作为行因素,一个作为列因素,设行因素有k 个水平,列因素有r 个水平,每一个观察值为x ij (i=1,2,...,k;j=1,2,...,r) 
x i  ¯  表示行因素第i 个水平下各观察值的平均值;x .j  ¯  表示列因素第j 个水平下各观察值的平均值;x ¯  表示全部kr 个样本数据的总平均值
1 分析步骤
(1) 提出假设
对行因素提出假设:
H 0 :μ 1 =μ 2 =...=μ k   行因素对因变量无显著影响
H 1 :μ 1 ,μ 2 ,...,μ k  不全相等 行因素对因变量有显著影响
对列因素提出假设:
H 0 :μ 1 =μ 2 =...=μ r   列因素对因变量无显著影响
H 1 :μ 1 ,μ 2 ,...,μ r  不全相等 列因素对因变量有显著影响
(2)构造检验统计量
与单因素分析相同,从总平方和的分解入手:
 k i=1  r j=1 (x ij x ¯ ) 2 = k i=1  r j=1 (x i. x ¯ ) 2 + k i=1  r j=1 (x .j x ¯ ) 2 + k i=1  r j=1 (x ij x i.  ¯ x j.  ¯ +x ¯ ) 2  
误差平方和(SST)=行误差平方和(SSR)+列误差平方和(SSC)+随机误差平方和(SSE)
从左到右的自由度分别为kr1k1r1(k1)(r1) 
计算均方,构造统计量:
F R =MSRMSE F(k1,(k1)(r1)) 
F C =MSCMSE F(r1,(k1)(r1)) 
(3)统计决策
查询得到相应的临界值F α  ,比较F α  F R F C  的大小。
F R >F α  ,拒绝原假设,差异是显著的。
F C >F α  ,拒绝原假设,差异是显著的。
2关系强度的测量
R 2 = =SSR+SSCSST  
其平方根R 则反映了这两个自变量合起来与因变量之间的关系强度。

2 有交互作用的双因素分析

x ijl  表示行因素第i 个水平和列因素第j 个水平第l 行的观察值;x ij  ¯  表示行因素第i 个水平和列因素第j 个水平组合的样本均值,x ¯  ¯  为全部观察值均值

与无交互作用的因素分析基本上一样,但误差的计算不同
总平方和SST: k i=1  r j=1  m l=1 (x ijl x ¯ ) 2  
行变量平方和SSR:rm k i=1 (x i.  ¯ x ¯  ¯ ) 2  
列变量平方和SSC:km r j=1 (x .j  ¯ x ¯  ¯ ) 2  
交互作用平方和SSRC:m k i=1  r j=1 (x ij  ¯ x i.  ¯ x j.  ¯ +x ¯  ¯ ) 2  
误差平方和:SSE=SSTSSRSSCSSRC 
构造统计量时比无交互作用因素多一个
F RC =MSRCMSE  

Published by

风君子

独自遨游何稽首 揭天掀地慰生平