c56a392f0ded5fbd750fe3b529afe0c0.pngc56a392f0ded5fbd750fe3b529afe0c0.png

点击蓝字 关注我们

在介绍卡方检验之前,我们先了解一下非参数检验

非参数检验是指在母体不服从正态分布或分布情况不明确时,即不依赖母体分布的类型,用以检验数据是否来自同一个母体假设的一类检验方法,又称分布自由检验。

那么什么是卡方检验呢?

01

卡方检验的定义

卡方检验是一种极为典型的对总体分布进行检验的非参数检验方法。用于检验数据是否与某种概率分布的理论数字相吻合,进而推断样本数据是否来自该分布的问题。

卡方检验可以检验属于每一类别对象或反响的观测数目与根据零假设所得的期望数目之间是否有显著差异。卡方检验的目的是根据样本所在母体分布(各类别所占比例)是否与已知母体不相同,是一种单样本检验。

02

卡方检验的基本思想

如果从一个随机变量X中随机抽取若干个观察样本,这些样本落在X的k个互不相交的子集中的观察频率服从一个多项分布,当k趋于无穷大时,这个多项分布近似服从卡方分布。卡方检验的零假设为:总体X服从某种分布,这里的样本认为是来自总体X。

03

卡方检验的SPSS操作

1. 在数据编辑窗口中,执行菜单栏中的【分析】→【非参数检验】→【旧对话框】→【卡方】命令,打开如图1所示的【卡方检验】对话框。

c72172e5d66de5c6fa297de9260a3dfc.pngc72172e5d66de5c6fa297de9260a3dfc.png

图1

【期望全距】栏用于确定检验值的取值范围,在此范围之外的取值将不进入分析。

【期望值】栏用于指定母体的各分类构成比,即期望频率npi的值。

2. 在主对话框中,单击【选项】按钮,打开图2所示的【卡方检验:选项】对话框。

ca9c734a137a240d7838a84628e68a8a.pngca9c734a137a240d7838a84628e68a8a.png

图2

在该对话框中可以定义所输出的统计量和缺失值的处理方式。

【统计量】栏,可从此栏内选择输出的统计量,包括【描述性】和【四分位数】选项。

【缺失值】栏,可在此栏内设置处理默认值的方式:【按检验排除个案】为系统默认选项,指在进行检验时,只排除参与检验的变量的默认值;【按列表排除个案】选项,表示剔除所有含有缺失值的个案。

3. 在主对话框中单击【精确】按钮,打开图3所示的【精确检验】对话框。

46e00e0f81db46728209f5bc57fd580f.png46e00e0f81db46728209f5bc57fd580f.png

图3

选择计算显著性水平Sig.值的几种方法,包括以下三个选项:

▪ 仅渐进法,这是系统默认的计算显著性水平的方法。计算显著性水平是基于检验统计量的渐进分布假设,如果显著性水平为0.05,检验结果被认为存在显著性差异。要求数据量足够大,如果数据量比较小,或者频率过低,则检验结果可能会失效。

▪ Monte Carlo,指蒙特卡洛估计方法,即精确显著性水平的无偏差估计。蒙特卡洛方法是利用给定样本集通过模拟方法重复取样来计算显著性水平,该方法不要求渐进方法中的假设。对于处理不满足渐进假设的巨量数据,同时由于数据的巨量而无法得到精确(精确)的显著性水平时,可以选择该方法。

▪ 精确,指精确计算显著性水平的方法。该方法得到精确的显著性水平,不需要渐进方法的假设,不足之处是计算量和所需内存太大。选择该选项后,可以选择【每个检验的时间限制为】复选框,即设置计算时间限制,默认时间限制为5分钟,超过该时间,系统会自动停止运算并给出计算结果。

所有设置结束后,单击【确定】按钮,即可开始进行统计分析过程。

04

卡方检验实例

下面以一个实例来简单说明卡方检验的运用,以及对其结果的解读。

在一个正20面体的各面上分别标上0-9十个数字。每个数字在两个面上标出。为了检验其均匀性,现将它投掷805次,得出各数字面上的次数。依据此数据,建立数据文件frequency.sav,数据如图4所示。

a3e58e48f2ca63363595b0b6348b4103.pnga3e58e48f2ca63363595b0b6348b4103.png

图4

为了检验该20面体是否均匀,即要检验每个数字出现的概率是否大致相同,每个数字出现的概率应大致为10%。在该例中,卡方检验的原假设为10个数字出现的概率之间无显著性差异。

操作步骤

(1) 打开数据文件。

(2) 对数据进行加权,从菜单栏选择【数据】→【加权个案】命令,打开【加权个案】对话框。在该对话框中,以frequency为加权变量,选择对其数据进行加权。

(3) 执行菜单栏中的【分析】→【非参数检验】→【旧对话框】→【卡方】命令。

(4) 将变量Number作为检验变量选入【检验变量列表】框中。

(5) 单击【选项】按钮,选择【描述性】和【四分位数】复选框,单击【继续】返回主对话框。

(6) 单击【确定】按钮。

 结果解读

表1 描述性统计量表

0b343e705e0aa542a10c203233d067f1.png0b343e705e0aa542a10c203233d067f1.png

表2 期望频率和观测频率表

939c6a9332824de627598bc71ffee69b.png939c6a9332824de627598bc71ffee69b.png

表2显示出各个分组的观测频率和期望频率以及两者之间的差值,从表中可以看出,期望频率为80.5,Residual代表的是残差,最大残差为10.5。

表3 卡方检验表

63d6b25eaeef2cdb009f1c4bf3689479.png63d6b25eaeef2cdb009f1c4bf3689479.png

表3中x2=4.627,渐进方法的概率p值为0.866,远大于显著性水平0.05,因此可以接受原假设,证明该20面体是均匀的。

f886c60208ba3a8089e1ff8205388677.giff886c60208ba3a8089e1ff8205388677.gif

参考资料

时立文.SPSS 19.0统计分析从入门到精通[M].北京:清华大学出版社,2012.

34f20451252f09cda786a4d374486213.png34f20451252f09cda786a4d374486213.png

扫码关注

有趣的灵魂在等你

图文:陈楼琪

排版:陈楼琪