目前标准化的方法非常多,不同的标准化方法带来的评价结果会产生不同的影响,但是在数据标准化方法的选择上并没有标准。这就需要我们了解各种各样标准化方法的机理与可能产生的问题,方便我们有需要的时候进行合理选择。组水平标准化(standardlization)最主要的目的是对一组数据进行比例、放缩变换,把有量纲的数据变成无量纲的数据。无量纲的数据处理的好处在于不用考虑数据的物理含义,可以在不同单位或者量级的数据之间进行加减或者比较。所以在这里我们引入今天的重点:Z-score——Z分数化。
Z-score 与 Fisher-Z 的区别
Z-score的数学定义:
其中: Z 为 Z分数,x 为一组数据值,μ为均值(或样本均值),δ为标准差(或样本标准差)
很多人在Z-score 与 Fisher’s z 变换上面傻傻分不清楚,包括某些文章上面所得到的结果就是错误的。因为某些文章把Z变换用成了fisher z。Z-score 与Fisher-Z其实没有任何联系,没有任何联系,没有任何联系。只不过名称相似,又常常同时在磁共振数据处理中使用,难免混淆。Z-score,又称Z分数化,“大Z变换”,Fisher-z,又称Fisher z-transformation,“小z变换”。
Fisher’s z 变换,主要用于皮尔逊相关系数的非线性修正上面。因为普通皮尔逊相关系数在0-1上并不服从正态分布,相关系数的绝对值越趋近1时,概率变得非常非常小。相关系数的分布非常像断了两头的正态分布。所以需要通过Fisherz-transformation对皮尔逊相关系数进行修正,使得满足正态分布。
from: fisher‘s ztransformation(from Wikipedia)
相关系数定义:
fisher‘s z transformation:
其中:r 为相关系数,ln为自然对数。
总结:Z-score 标准化,用于一组数据去量纲,变换后得到数据均值为0,标准差为1.