假设检验差异检验: t检验、秩和检验(如wilcox检验)、Kolmogorov-Smirnov检验

组间差异检验:方差分析、费歇尔检验、卡方检验

相关性分析:相关性检验(pearson、spearman、kendall等)、cos相关性检验

基本概念:1.假设检验是统计推断的主要部分

2 .对某件事提出疑问、解决疑问的过程,往往是首先提出与疑问相关的假设,在该假设下寻找相关证据,如果得到的证据与假设相矛盾,则否定该假设

3 .假设检验的基本思想是概率较低的反证法思想。 低概率的想法是低概率的现象(P0.01或P0.05 )在一次实验中几乎不会发生。 反证法思想是指在提出假设(验证假设H0 )后,采用适当的统计方法确定假设成立可能性的大小,如果可能性小,则认为假设不成立,如果可能性高,则认为假设不成立

4 .在解决假设验证问题的同时,可能会犯错误。 否定H0时犯的错误是第一种错误,接受H0时犯的错误是第二种错误,具体来说

1 ) H0为真,经统计推断,否定H0,犯第一类错误

2 ) H0为假,经统计推断,接受H0,犯第二类错误

5 .检验等级a控制否定H0时犯第一类错误的概率。 如果检查明确的话,否定H0后,犯第一类错误的概率不超过A。 如果检查不明显,就不能否定H0

6 .参数统计:即已知总体分布类型,利用样本指标估算总体参数或进行假设检验的统计分析方法。

7 .非参数统计:一种不考虑总体分布类型是否已知,不比较总体参数,只比较总体分布位置是否相同的统计方法。

过程: 1、提出检验假说也称无效假说,符号为H0; 假设的符号是H1。

(H0 )样本与总体或样本与样本差异由抽样误差引起;

H1 )样品与总体或样品与样品之间存在本质差异;

预设检验水平为0.05。验证假设为真,错误拒绝概率标记为,一般取=0.05或=0.01。

2、选定统计方法,根据样本观察值,通过相应公式计算统计量的大小,如X2值、t值等。 根据资料类型和特点,可分别选择T检验、秩和检验等。

3、根据统计量的大小及其分布决定验证假说成立的可能性p的大小,并判断结果。 对于P,用取值不明显,得出不拒绝H0的结论,认为差很可能是由抽样误差引起的,在统计上不成立; 如果我们得出结论,p,显著取决于所取的水平,拒绝H0,接受H1,我们认为这个差很可能不仅仅是采样误差,更有可能是实验因素的差异,统计上成立。 p值的大小通常通过参照相应的边界值表来获得。

差异检验:一、T检验概念:学生T检验用于检验统计服从空假设为真正态分布。 这样就可以确定两组独立的数据集之间是否存在差异。 T检验应用于少量样品(小于30 )且标准差未知的判断问题。 多组间比较谨慎使用t检验

统计原理: 1、建立空假设H0:1=2。 也就是说,首先假设两个总体均值之间没有显著差异; 选择假设H1: 12

2、给予显著性a级(如0.05 )

3、计算统计量t的值,1 2为总量平均值s的方差

4、计算相应的p值

5、确定能否拒绝空假设

weights-c(84.12、85.17、62.18、83.97、76.29、76.89、61.37、70.38、90.98、85.71、89.33、74.56、82.01、75.19 65.26、60.32、66.96、59.78、69.71、76.44、81.39、64.95.53、75.53

7.21,64.9,71.93,75.04,74.29,77.53) boxplot(list(weights,weights2),main=’A boxplot of two weight samples’) abline(h=mean(weights),lwd=2,col=’blue’) abline(h=mean(weights2),lwd=2,col=’red’)pvalue<-t.test(weights,weights2)$p.value 可视化展现:

pvalue=0.00049(<0.05)

说明两组数据的平均值有显著差异

二、秩和检验Wilcoxon 概念:

秩和检验是一种非参数校验方法用样本秩来代替样本值的检验法),它使用的空假设为,不假设正态分布的情况下,两个不同组的数据来自于同一个全量。

统计原理:

T检验,它假设两组样本之间的差异是服从正态分布(也适用于两组样本服从正态分布的情况)。但是,当不能确定正态分布的时候,可以采用wilcoxon秩和检验来做假设检验

 1)建立假设;

        H0:比较两组的总体分布相同;

        H1:比较两组的总体分布位置不同;检验水准为0.05。

(2)两组混合编秩;

(3)求样本数最小组的秩和作为检验统计量T;

(4)以样本含量较小组的个体数n1、两组样本含量之差n2-n1及T值查检验界值表;

(5)根据P值作出统计结论。

当相同秩次较多时,应用校正公式计算u值

现设1,2两总体分别抽取容量为n1,n2的样本,且设两样本独立。这里总假定 n1<>n2。

我们将这n1 + n2个观察值放在一起,按自小到大的次序排列,求出每个观察值的秩,然后将属于第1个总体的样本观察值的秩相加,其和记为R1,称为第1样本的秩和,其余观察值的秩的总和记作R2,称为第2样本的秩和。

显然,R1和R2是离散型随机变量,且有R1+R2=( (n1+n2)(n1+n2+1) )/2.

实现: likes<-c(17,40,57,30,51,35,59,64,37,49,39,41,17,53,21,28,46,23,14,13,11,17,15,21,9,17,10,11,13,16,18,17,2,11,12,5,8,4,12,7,11,8,4,8,7,3,9,9,9,12,17,6,10) likes2<-c(28,152,197,25,62,39,32,202,85,74,125,32,67,29,37,297,101,45,24,63,17,92,46,60,317,85,46,61,56,59,91,54,133,87,200,28,97,28,30) boxplot(list(likes,likes2))Pvalue<-wilcox.test(likes,likes2)$p.value 可视化展示

pvalue=2.750569e-11 (<0.05)

说明两组数据并不来自于同一个全量

三、Kolmogorov-Smirnov检验 概念:

KS检验是一种非参数的、面向连续概率分布等价性的统计检验方法。

双样本Kolmogorov-Smirnov检验可以比较两个数据集的累积分布

统计原理:

H0:样本服从指定的分布

H1:样本不服从指定的分布

ECDF:经验累积分布函数

KS检验使用的是两条累计分布曲线之间的最大垂直差作为D值(statistic D)作为描述两组数据之间的差异。

实现: set.seed(123) x<-runif(n=20,min=0,max=20) y<-runif(n=20,min=0,max=20) plot(ecdf(x),do.points=F,verticals = T,xlim=c(0,20)) lines(ecdf(y),lty=3,do.points=F,verticals=T) pvalue<-ks.test(x,y)$p.value 可视化展现:

pvalue=0.8319696 (>0.05)

说明两组数据可能来自同一个分布

 T检验秩和检验KS检验条件

1) 已知一个总体均数

2)可得到样本均数及样本标准差

3)样本来自正态或近似正态分布

样本独立

分布不清

两个样本容量均小于10

适用于连续概率分布

空假设

两个总体平均值相同

不假设正态分布的情况下,两个不同组的数据来自于同一个全量

两组数据来自于同一个分布

统计平均数秩和

两条累计分布曲线之间的最大垂直差

 

极速赛车买前5名的方法,37,49,39,41,17,53,21,28,46,23,14,13,11,17,15,21,9,17,10,11,13,16,18,17,2,11,12,5,8,4,12,7,11,8,4,8,7,3,9,9,9,12,17,6,10) likes2<-c(28,152,197,25,62,39,32,202,85,74,125,32,67,29,37,297,101,45,24,63,17,92,46,60,317,85,46,61,56,59,91,54,133,87,200,28,97,28,30) boxplot(list(likes,likes2))Pvalue<-wilcox.test(likes,likes2)$p.value 可视化展示

pvalue=2.750569e-11 (<0.05)

说明两组数据并不来自于同一个全量

三、Kolmogorov-Smirnov检验 概念:

KS检验是一种非参数的、面向连续概率分布等价性的统计检验方法。

双样本Kolmogorov-Smirnov检验可以比较两个数据集的累积分布

统计原理:

H0:样本服从指定的分布

H1:样本不服从指定的分布

ECDF:经验累积分布函数

KS检验使用的是两条累计分布曲线之间的最大垂直差作为D值(statistic D)作为描述两组数据之间的差异。

实现: set.seed(123) x<-runif(n=20,min=0,max=20) y<-runif(n=20,min=0,max=20) plot(ecdf(x),do.points=F,verticals = T,xlim=c(0,20)) lines(ecdf(y),lty=3,do.points=F,verticals=T) pvalue<-ks.test(x,y)$p.value 可视化展现:

pvalue=0.8319696 (>0.05)

说明两组数据可能来自同一个分布

 T检验秩和检验KS检验条件

1) 已知一个总体均数

2)可得到样本均数及样本标准差

3)样本来自正态或近似正态分布

样本独立

分布不清

两个样本容量均小于10

适用于连续概率分布

空假设

两个总体平均值相同

不假设正态分布的情况下,两个不同组的数据来自于同一个全量

两组数据来自于同一个分布

统计平均数秩和

两条累计分布曲线之间的最大垂直差