χ²検定の適合度検定とは?やり方と考え方を例題で解説【統計検定2級】

検定

χ²検定には、代表的に次の2つがあります。

  • 独立性の検定
  • 適合度検定

前回は「独立性の検定」で期待度数をどう求めるかを見ました。
今回はもう一つの重要テーマ、適合度検定 を整理します。

適合度検定では、

  • サイコロは公平と言えるか
  • 男女比は理論値どおりか
  • 曜日ごとの人数は一様とみなせるか

のように、観測された度数が、ある理論的な割合に合っているか を調べます。


この記事で分かること

  • 適合度検定とは何か
  • 期待度数の求め方
  • χ²統計量の計算方法
  • 自由度の考え方
  • 独立性の検定との違い

適合度検定とは?

適合度検定とは、

観測された度数が、ある理論分布や期待される割合に適合しているか
を調べる検定です。

たとえば、

  • サイコロなら各目が 1/6ずつ
  • 男女比なら 1:1
  • 3つの選択肢なら 2:3:5

のように、あらかじめ比率が決まっている 場面で使います。


独立性の検定との違い

ここは混同しやすいので、最初に整理しておきます。

検定 見るもの 期待度数の作り方
適合度検定 理論的な割合に合っているか 総数 × 理論割合
独立性の検定 2つの属性が独立か 行合計 × 列合計 ÷ 総数

つまり、適合度検定では 最初から理論割合が与えられている のがポイントです。


期待度数の求め方

適合度検定では、期待度数は

期待度数 = 総数 × 理論割合

で求めます。

たとえば、総数が 120 人で、理論割合が

  • A:0.5
  • B:0.3
  • C:0.2

なら、期待度数は

  • A:120 × 0.5 = 60
  • B:120 × 0.3 = 36
  • C:120 × 0.2 = 24

です。


問題(類似問題)

あるアンケートで、3つの選択肢 A, B, C の回答者数を調べたところ、次の結果が得られた。

選択肢 観測度数 理論割合
A 54 0.5
B 42 0.3
C 24 0.2

総数は 120 人である。

問1:A, B, C の期待度数を求めてください。


解答

  • A:60
  • B:36
  • C:24

解説

期待度数は

総数 × 理論割合

なので、

  • A:120 × 0.5 = 60
  • B:120 × 0.3 = 36
  • C:120 × 0.2 = 24

です。


χ²統計量の求め方

χ²統計量は、各カテゴリについて

(観測度数 − 期待度数)² ÷ 期待度数

を計算し、それを全部足します。

今回の例では、

  • A:
(54 - 60)² / 60 = 36 / 60 = 0.6
  • B:
(42 - 36)² / 36 = 36 / 36 = 1.0
  • C:
(24 - 24)² / 24 = 0

なので、

χ² = 0.6 + 1.0 + 0 = 1.6

です。


自由度の求め方

適合度検定の自由度は、基本的に

カテゴリ数 - 1

です。

今回の例ではカテゴリが A, B, C の3つなので、

3 - 1 = 2

で、自由度は 2 です。


なぜ自由度は「カテゴリ数−1」なのか

期待度数は総数に合わせて作るので、
最後の1つは他が決まると自動的に決まります。

たとえば3カテゴリなら、

  • 最初の2つが決まれば
  • 最後の1つは総数に合わせて決まる

ので、自由に動けるのは 2つ分 です。

だから、自由度は

カテゴリ数 - 1

になります。


問題(類似問題②)

χ²適合度検定における期待度数の求め方として正しいものはどれか。
A. 行合計 × 列合計 ÷ 総数
B. 総数 × 理論割合
C. 観測度数の平均
D. 観測度数 − 理論割合


解答

B


解説

適合度検定では、期待度数は

総数 × 理論割合

で求めます。

A は独立性の検定の期待度数の式です。


χ²分布表での判定

検定統計量が求まったら、
自由度に応じて χ²分布表 と比べます。

今回の例では

  • χ² = 1.6
  • 自由度 = 2

です。

たとえば有意水準5%なら、自由度2の臨界値は

5.991

です。

今回の 1.6 はこれより小さいので、

帰無仮説は棄却できない

となります。

つまり、観測された度数は理論割合と大きく矛盾していない、と考えます。


よくあるミス

  1. 期待度数を観測度数から作ってしまう
    → 適合度検定では、期待度数は理論割合から作ります。
  2. 独立性の検定の式を使ってしまう
    → 行合計×列合計÷総数 は独立性の検定です。
  3. 自由度をカテゴリ数にしてしまう
    → 自由度は カテゴリ数−1 です。
  4. χ²値が小さいと「差がある」と思ってしまう
    → χ²値が大きいほど、観測度数と期待度数のズレが大きいです。

追加練習

あるサイコロを 60 回投げたところ、出た目の度数は次のようであった。

1: 8
2: 9
3: 11
4: 12
5: 10
6: 10

このサイコロが公平であるという帰無仮説を、χ²適合度検定によって有意水準5%で検討する。
このとき、検定統計量 χ² と結論の組として最も適切なものを、次の 1〜4 のうちから1つ選べ。

  1. χ² = 1.00 であり、帰無仮説は棄却できない
  2. χ² = 2.40 であり、帰無仮説は棄却する
  3. χ² = 4.00 であり、帰無仮説は棄却する
  4. χ² = 5.20 であり、帰無仮説は棄却する

解答

1

解説

公平なサイコロであれば、各目の期待度数は

60 × 1/6 = 10

である。

したがって χ²統計量は

(8-10)²/10 + (9-10)²/10 + (11-10)²/10
+ (12-10)²/10 + (10-10)²/10 + (10-10)²/10

となる。

各項は

4/10, 1/10, 1/10, 4/10, 0, 0

なので、合計は

0.4 + 0.1 + 0.1 + 0.4 = 1.0

したがって

χ² = 1.00

である。

自由度は

カテゴリ数 - 1 = 6 - 1 = 5

である。
有意水準5%で自由度5の χ²分布表の臨界値は約

11.07

なので、

1.00 < 11.07

より、帰無仮説は棄却できない。
つまり、この結果だけでは「このサイコロは公平ではない」とまでは言えない。

よって正解は 1



まとめ

  • 適合度検定は、観測度数が理論割合に合っているかを見る検定
  • 期待度数は
総数 × 理論割合

で求める

  • χ²統計量は
(観測度数 − 期待度数)² ÷ 期待度数

を全部足す

  • 自由度は
カテゴリ数 - 1

次に読む記事


練習問題(noteの記事へ)

関連する問題をまとめて練習したい方へ:
統計検定2級「検定・推定」ドリル10問+解説

コメント

タイトルとURLをコピーしました