卡方检验

# [卡方检验:](https://www.jianshu.com/p/235bac89fd78) 卡方检验是用途非常广的以**卡方分布**(深入浅出统计学有讲)为基础的一种假设检验方法,它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的**关联性分析**。 --- > **[卡方分布](https://www.bilibili.com/video/BV1aa4y1v7Pf?from=search&seid=2094278267453790560)** 卡方值服从独立标准正态分布? 以运营为例: - 卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别; - 不同城市级别的消费者对买SUV车有没有什么区别; 举例:两组大白鼠在不同致癌剂作用下的发癌率如下表,问两组发癌率有无差别? | 处理 | 发癌数 | 未发癌数 | 合计 | 发癌率% | | ---- | ---- | ---- | ---- | ---- | | 甲组 | 52 | 19 | 71 | 73.24 | | 乙组 | 39 | 3 | 42 | 92.86 | | 合计 | 91 | 22 | 113 | 80.33 | (52,19,39,3) 这四个数据是整个表中的基本资料,其余数据均由此推算出来;这四格资料表就专称四格表(fourfold table),或称2行2列表(2×2 contingency table)。从该资料算出的两组发癌率分别为73.24%和92.86%,两者的差别可能是抽样误差所致,亦可能是两组发癌率(总体率)确有所不同。这里可通过卡方检验来区别其差异有无统计学意义,检验的基本公式为: $$ x^{2}=\sum \frac{(A-T)^{2}}{T} $$ 式中A为实际数,以上四格表的四个数据就是实际数。T为理论数,是根据检验假设推断出来的;即假设这两组的发癌率本无不同,差别仅是由抽样误差所致。这里可将两组合计发癌率作为理论上的发癌率,即 91/113=80.3%,以此为依据便可推算出四格表中相应的四格的理论数。以上表资料为例检验如下。 ### 卡方检验步骤: **1. 建立检验假设** H0:两组发癌率有差别 H1:两组发癌率无差别 α=0.05 **2. 计算理论数(TRC),计算公式为: TRC=nR x nC/n** 式中TRC是表示第R行C列格子的理论数,nR为理论数同行的合计数,nC为与理论数同列的合计数,n为总例数。 第1行1列: 71×91/113=57.18 第1行2列: 71×22/113=13.82 第2行1列: 42×91/113=33.82 第2行2列: 42×22/113=8.18 以推算结果,可与原四项实际数并列成下表: | 处理 | 发癌数 | 未发癌数 | 合计 | | ---- | ---- | ---- | ---- | | 甲组 | 52 ( 57.18 ) | 19 ( 13.82 ) | 71 | | 乙组 | 39 ( 33.82 ) | 3 ( 8.18 ) | 42 | | 合计 | 91 | 22 | 113 | 因为上表每行和每列合计数都是固定的,所以只要用TRC式求得其中一项理论数(例如T1.1=57.18),则其余三项理论数都可用同行或同列合计数相减,直接求出。 **3. 计算卡方值按公式代入** 卡 方 $=x^{2}=\sum \frac{(A-T)^{2}}{T}=\frac{(52-57.18)^{2}}{57.18}+\frac{(19-13.82)^{2}}{13.82}+\frac{(39-33.82)^{2}}{33.82}+\frac{(3-8.18)^{2}}{8.18}$ **4. 查卡方值表求P值** 在查表之前应知本题自由度。按卡方检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)*(2-1)=1,查卡方界值表,找到$x_{0.05}^{2}(1)=3.84$,而本题卡方=6.48即卡方>$x_{0.05}^{2}(1)$,P<0.05,差异有显著统计学意义,按α=0.05水准,拒绝H0,可以认为两组发癌率有差别。 通过实例计算,读者对卡方的基本公式有如下理解:若各理论数与相应实际数相差越小,卡方值越小;如两者相同,则卡方值必为零,而卡方永远为正值。又因为每一对理论数和实际数都加入卡方值中,分组越多,即格子数越多,卡方值也会越大,因而每考虑卡方值大小的意义时同时要考虑到格子数。因此自由度大时,卡方的界值也相应增大。