W检验

# W检验 W检验(Shapiro-Wilk的简称)主要检验研究对象是否符合正态分布。它是基于两个分布的相关性来进行判断,会得出一个类似于皮尔逊相关系数的值。值越大,说明两个分布越相关,越符合某个分布。 --- **原假设H0:** 一定样本量n(8<n<50)的研究对象总是符合正态分布。 将样本量为n的样本按照大小顺序编排,然后根据公式计算统计量W的值,该值越接近于1,且显著水平大于0.05时,我们就没法拒绝原假设。 计算公式:$W=\frac{\left(\sum_{i=1}^{n} a_{i} x_{i}\right)^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}$ 其中: - $x_{i}$用括号包含下标索引i的;不与$x$混淆,它是第i阶统计量,即样本中的第i个最小数 - $\bar{x}=\left(x_{1}+\cdots+x_{n}\right) / n$是样本的平均值。 - 常量 $a_{i}$ 通过公式 $\left(a_{1}, \ldots, a_{n}\right)=\frac{m^{\top} V^{-1}}{\left(m^{\top} V^{-1} V^{-1} m\right)^{1 / 2}}$ ,其中$m=\left(m_{1}, \ldots, m_{n}\right)^{\top}$ - 其中 $m_{1},...,m_{n}$是从一个标准的正态分布随机变量上采样的有序独立同分布的统计量的期望值。 - V是这些有序统计量的协方差。 **解释:** 这个统计检验的假设是样本来自于一个正态母体, 因此,一方面,如果p值小于选择的显著度水平(α值 通常0.05),那么在更大概率下我们应该拒绝零假设,数据的证据显示我们的样本不是来自一个正态分布母体。另一方面,如果p值比选择的显著度水平大,那么我们没有证据拒绝零假设,数据来自于一个正态分布。(举个栗子,如果p值是0.05,同时选择的显著度水平是0.05,那么应该拒绝零假设,数据来自与一个正态分布母体。) 和大多数统计学显著性测试一样,如果样本空间足够大,那么该检验可以发现零假设的每一个细节。(即虽然这里可能有统计显著性效用,但它实在太小而不可能是任何一个实际的统计显著性。)因此,通常建议做额外的效果因子调查,例如,这种情况下的一个Q-Q图。 W检验在**Python中的实现代码**如下: ```python from scipy.stats import shapiro shapiro(x) # 上面的代码会返回两个结果:W值和其对应的p_value # shapiro是专门用于正态性检验的,所以不需要指明分布类型。且 shapiro 不适合做样本数>5000的正态性检验 ```