カイ二乗検定の補足
ちなみに、カイ二乗検定では二つの変数(たとえば性別と中国の好き嫌い)の間にもし関連がなかったとするならばどのようなクロス表になるかをまず考え、それが実際のクロス表と大幅に違っているときには、二つの変数に「関連あり」と判断します。
たとえば、性別と中国の好き嫌いに関連がないときには
性別\中国|好き 嫌い
―――――――――――――
男性 |19.9人 74.1人
女性 |16.1人 59.9人
というクロス表になると考えられます(男女で好き嫌いの割合が等しくなっている)。これと実際のクロス表との違いの大きさを
「関連なし表の値と実際の表の値の差」の二乗÷関連なし表の値
という値を4セル分合計して求めてやります。この違いの大きさの尺度のことを「カイ二乗値」というのですが、実際の母集団でも二つの変数に関連がないときにはこの値が95%の確率で3.84以下になることが知られています。
そこでカイ二乗値が3.84以上の時には、危険率5%で実際の母集団でも二つの変数に「関連がある」という判断を下すことができます(危険率とは、本当は関連がないのに関連があると判断してしまう確率のこと)。
この場合、カイ二乗値を計算すると4.96となりますので、3.84より大きな値となります。したがって、危険率5%で性別と中国の好き嫌いには関連があり、女性の方が男性より中国の好きな人が多い、という結論を下すことができます。
このようにして二つの変数の関連のあるなしを判定する方法をカイ二乗検定といいます。
| 固定リンク

コメント