分散分析(ANOVA)とは?群間変動と群内変動をわかりやすく解説【統計検定2級】

検定

統計検定2級で 分散分析(ANOVA が出てくると、

  • 平均を比べたいのに、なぜ「分散分析」なのか
  • 群間変動と群内変動とは何か
  • F値は何を表しているのか

で混乱しやすいです。

名前に「分散」と入っていますが、分散分析の目的は
複数の群の平均に差があるかを調べること
です。

この記事では、

  • 分散分析の考え方
  • 群間変動と群内変動
  • F値の意味
  • よくあるミス

を整理します。


この記事で分かること

  • 分散分析が何をする検定か
  • 群間変動と群内変動の違い
  • F値が大きいと何を意味するか
  • なぜ平均の差を見るのに分散を使うのか
  • 統計検定2級での基本的な見方

分散分析とは?

分散分析(ANOVA)は、

3群以上の平均に差があるかどうかを調べる方法

です。

たとえば、

  • 3種類の勉強法で平均点に差があるか
  • 4種類の肥料で平均収穫量に差があるか
  • 複数の薬剤で平均効果に差があるか

のような場面で使います。


なぜ「平均の差」を見るのに「分散」を使うのか?

ここが一番大事です。

分散分析では、平均そのものを直接比べるのではなく、

  • 群ごとの平均のばらつき
  • 同じ群の中でのばらつき

を比べます。

もし本当に群の平均に差があるなら、

  • 群どうしの平均は大きく離れるはず
  • 一方で、各群の中のばらつきに比べて、その差が十分大きいはず

という考え方です。

つまり、分散分析では

群どうしの差が、群内のばらつきに比べて十分大きいか

を見ています。


群間変動と群内変動

分散分析では、ばらつきを2つに分けて考えます。

群間変動

各群の平均が、全体平均からどれくらい離れているか

群どうしの違いの大きさ

群内変動

同じ群の中で、各データが群平均からどれくらい離れているか

もともとの個体差・誤差の大きさ


イメージ

たとえば、3つのクラス A, B, C のテスト点数を比べるとします。

  • A, B, C の平均点がかなり違う
    → 群間変動が大きい
  • 各クラスの中では点数があまり散らばっていない
    → 群内変動が小さい

このとき、
「クラスによって平均点が違う」と言えそう
です。

逆に、

  • クラス平均は少し違っても
  • 各クラス内のばらつきが非常に大きい

なら、その差は偶然かもしれません。


問題(類似問題①)

分散分析で「群間変動」が大きいとは、どういう状態か。
A. 同じ群の中でデータがよく散らばっている
B. 各群の平均が全体平均から大きく離れている
C. 全データがまったく同じ値である
D. 自由度が大きい


解答

B


解説

群間変動は、
各群の平均が全体平均からどれだけ離れているか
を表します。

つまり、群間変動が大きいということは、
群どうしの平均差が大きい ということです。


F値とは?

分散分析では、次の比を考えます。

F値 = 群間変動 ÷ 群内変動

厳密には平均平方を使いますが、基本の考え方はこれで十分です。

つまり、

  • 群間変動が大きい
  • 群内変動が小さい

ほど、F値は大きくなります。

F分布については以下の記事でも解説しています。

F分布とは?形・自由度・使い方をわかりやすく解説【統計検定2級】


F値が大きいと何が言える?

F値が大きいということは、

群どうしの平均差が、群の中のばらつきに比べて大きい

ということです。

したがって、

少なくともどこかの群平均は他と違いそう

と考えます。

ここで大事なのは、

  • 分散分析は 「全部同じ」とは言えない ことを調べる
  • どの群とどの群が違うか までは、この段階では分からない

という点です。


帰無仮説と対立仮説

1元配置分散分析では、通常

  • H0:すべての群平均は等しい
  • H1:少なくとも1つの群平均は異なる

とします。

ここで注意したいのは、対立仮説が

「全部違う」

ではないことです。

あくまで、

「少なくとも1つは違う」

です。


問題(類似問題②)

分散分析で帰無仮説を棄却したとき、言えることとして最も適切なのはどれか。
A. すべての群平均が異なる
B. 少なくとも1つの群平均が他と異なる
C. 群内変動が0である
D. すべての群平均が等しい


解答

B


解説

分散分析で帰無仮説を棄却しても、
「どの群が違うか」「全部違うか」 までは分かりません。

分かるのは、

少なくとも1つの群平均が他と異なる

ということです。


分散分析表(ANOVA表)の見方

統計検定2級では、分散分析表の意味を問われることがあります。

代表的な形は次の通りです。

要因 平方和 自由度 平均平方 F値
群間 SSB k−1 MSB MSB / MSW
群内 SSW N−k MSW

ここでは、まず

  • 群間:平均差に関するばらつき
  • 群内:各群の中のばらつき

という意味が分かれば十分です。


自由度の基本

1元配置分散分析では、

  • 群間の自由度:
k - 1
  • 群内の自由度:
N - k

です。

ここで、

  • k:群の数
  • N:全体のデータ数

です。


よくあるミス

  1. 分散分析は「全部の平均が違う」と調べるものだと思ってしまう
    → 正しくは、少なくとも1つ違うか を調べます。
  2. F値が大きい = 群内変動が大きい、と思ってしまう
    → F値が大きいのは、群間変動が群内変動より大きい ときです。
  3. 平均を比べるのに、分散を見ている理由が分からない
    → 「平均差が、もともとのばらつきに比べて十分大きいか」を見ているからです。
  4. 帰無仮説を棄却したら、どの群が違うかも分かると思ってしまう
    → それは事後比較の話で、分散分析だけでは分かりません。

追加練習


ある学習法 A, B, C の効果を比較するために、各学習法を用いた受験者4名ずつの得点を調べたところ、次の結果を得た。

  • A:8, 9, 10, 9
  • B:10, 11, 12, 11
  • C:12, 13, 14, 13

このとき、3群の平均が等しいという帰無仮説を、1元配置分散分析によって有意水準5%で検討する。
分散分析による F値として最も適切なものを、次の 1〜4 のうちから1つ選べ。

  1. F=6.00F = 6.00
  2. F=12.00F = 12.00
  3. F=18.00F = 18.00
  4. F=24.00F = 24.00

解答

2

解説

各群の平均は

  • A群:9
  • B群:11
  • C群:13

全体平均は

(9 + 11 + 13) / 3 = 11

群間平方和は

SSB = 4(9-11)² + 4(11-11)² + 4(13-11)²
= 4×4 + 0 + 4×4
= 16 + 16
= 32

群内平方和は

A群:

(8-9)² + (9-9)² + (10-9)² + (9-9)² = 2

B群:

(10-11)² + (11-11)² + (12-11)² + (11-11)² = 2

C群:

(12-13)² + (13-13)² + (14-13)² + (13-13)² = 2

したがって

SSW = 2 + 2 + 2 = 6

自由度は

  • 群間自由度:
3 - 1 = 2
  • 群内自由度:
12 - 3 = 9

したがって平均平方は

MSB = 32 / 2 = 16
MSW = 6 / 9 = 2/3

よって F値は

F = 16 / (2/3) = 24

となる。
したがって正解は 4



まとめ

  • 分散分析は、3群以上の平均差 を調べる方法
  • 見ているのは
    群間変動 ÷ 群内変動
  • F値が大きいほど、平均差がありそう
  • 帰無仮説は
    「すべての群平均は等しい」
  • 棄却しても、どの群が違うか まではこの段階では分からない

次に読む記事


練習問題(noteの記事へ)

関連する問題をまとめて練習したい方へ:
統計検定2級問題演習ドリル10問+解説

コメント

タイトルとURLをコピーしました