統計検定2級で 分散分析(ANOVA) が出てくると、
- 平均を比べたいのに、なぜ「分散分析」なのか
- 群間変動と群内変動とは何か
- F値は何を表しているのか
で混乱しやすいです。
名前に「分散」と入っていますが、分散分析の目的は
複数の群の平均に差があるかを調べること
です。
この記事では、
- 分散分析の考え方
- 群間変動と群内変動
- F値の意味
- よくあるミス
を整理します。
この記事で分かること
- 分散分析が何をする検定か
- 群間変動と群内変動の違い
- F値が大きいと何を意味するか
- なぜ平均の差を見るのに分散を使うのか
- 統計検定2級での基本的な見方
分散分析とは?
分散分析(ANOVA)は、
3群以上の平均に差があるかどうかを調べる方法
です。
たとえば、
- 3種類の勉強法で平均点に差があるか
- 4種類の肥料で平均収穫量に差があるか
- 複数の薬剤で平均効果に差があるか
のような場面で使います。
なぜ「平均の差」を見るのに「分散」を使うのか?
ここが一番大事です。
分散分析では、平均そのものを直接比べるのではなく、
- 群ごとの平均のばらつき
- 同じ群の中でのばらつき
を比べます。
もし本当に群の平均に差があるなら、
- 群どうしの平均は大きく離れるはず
- 一方で、各群の中のばらつきに比べて、その差が十分大きいはず
という考え方です。
つまり、分散分析では
群どうしの差が、群内のばらつきに比べて十分大きいか
を見ています。
群間変動と群内変動
分散分析では、ばらつきを2つに分けて考えます。
群間変動
各群の平均が、全体平均からどれくらい離れているか
→ 群どうしの違いの大きさ
群内変動
同じ群の中で、各データが群平均からどれくらい離れているか
→ もともとの個体差・誤差の大きさ
イメージ
たとえば、3つのクラス A, B, C のテスト点数を比べるとします。
- A, B, C の平均点がかなり違う
→ 群間変動が大きい - 各クラスの中では点数があまり散らばっていない
→ 群内変動が小さい
このとき、
「クラスによって平均点が違う」と言えそう
です。
逆に、
- クラス平均は少し違っても
- 各クラス内のばらつきが非常に大きい
なら、その差は偶然かもしれません。
問題(類似問題①)
分散分析で「群間変動」が大きいとは、どういう状態か。
A. 同じ群の中でデータがよく散らばっている
B. 各群の平均が全体平均から大きく離れている
C. 全データがまったく同じ値である
D. 自由度が大きい
解答
B
解説
群間変動は、
各群の平均が全体平均からどれだけ離れているか
を表します。
つまり、群間変動が大きいということは、
群どうしの平均差が大きい ということです。
F値とは?
分散分析では、次の比を考えます。
F値 = 群間変動 ÷ 群内変動
厳密には平均平方を使いますが、基本の考え方はこれで十分です。
つまり、
- 群間変動が大きい
- 群内変動が小さい
ほど、F値は大きくなります。
F分布については以下の記事でも解説しています。
F分布とは?形・自由度・使い方をわかりやすく解説【統計検定2級】
F値が大きいと何が言える?
F値が大きいということは、
群どうしの平均差が、群の中のばらつきに比べて大きい
ということです。
したがって、
少なくともどこかの群平均は他と違いそう
と考えます。
ここで大事なのは、
- 分散分析は 「全部同じ」とは言えない ことを調べる
- どの群とどの群が違うか までは、この段階では分からない
という点です。
帰無仮説と対立仮説
1元配置分散分析では、通常
- H0:すべての群平均は等しい
- H1:少なくとも1つの群平均は異なる
とします。
ここで注意したいのは、対立仮説が
「全部違う」
ではないことです。
あくまで、
「少なくとも1つは違う」
です。
問題(類似問題②)
分散分析で帰無仮説を棄却したとき、言えることとして最も適切なのはどれか。
A. すべての群平均が異なる
B. 少なくとも1つの群平均が他と異なる
C. 群内変動が0である
D. すべての群平均が等しい
解答
B
解説
分散分析で帰無仮説を棄却しても、
「どの群が違うか」 や 「全部違うか」 までは分かりません。
分かるのは、
少なくとも1つの群平均が他と異なる
ということです。
分散分析表(ANOVA表)の見方
統計検定2級では、分散分析表の意味を問われることがあります。
代表的な形は次の通りです。
| 要因 | 平方和 | 自由度 | 平均平方 | F値 |
|---|---|---|---|---|
| 群間 | SSB | k−1 | MSB | MSB / MSW |
| 群内 | SSW | N−k | MSW | – |
ここでは、まず
- 群間:平均差に関するばらつき
- 群内:各群の中のばらつき
という意味が分かれば十分です。
自由度の基本
1元配置分散分析では、
- 群間の自由度:
k - 1
- 群内の自由度:
N - k
です。
ここで、
k:群の数N:全体のデータ数
です。
よくあるミス
- 分散分析は「全部の平均が違う」と調べるものだと思ってしまう
→ 正しくは、少なくとも1つ違うか を調べます。 - F値が大きい = 群内変動が大きい、と思ってしまう
→ F値が大きいのは、群間変動が群内変動より大きい ときです。 - 平均を比べるのに、分散を見ている理由が分からない
→ 「平均差が、もともとのばらつきに比べて十分大きいか」を見ているからです。 - 帰無仮説を棄却したら、どの群が違うかも分かると思ってしまう
→ それは事後比較の話で、分散分析だけでは分かりません。
追加練習
ある学習法 A, B, C の効果を比較するために、各学習法を用いた受験者4名ずつの得点を調べたところ、次の結果を得た。
- A:8, 9, 10, 9
- B:10, 11, 12, 11
- C:12, 13, 14, 13
このとき、3群の平均が等しいという帰無仮説を、1元配置分散分析によって有意水準5%で検討する。
分散分析による F値として最も適切なものを、次の 1〜4 のうちから1つ選べ。
解答
2
解説
各群の平均は
- A群:9
- B群:11
- C群:13
全体平均は
(9 + 11 + 13) / 3 = 11
群間平方和は
SSB = 4(9-11)² + 4(11-11)² + 4(13-11)²
= 4×4 + 0 + 4×4
= 16 + 16
= 32
群内平方和は
A群:
(8-9)² + (9-9)² + (10-9)² + (9-9)² = 2
B群:
(10-11)² + (11-11)² + (12-11)² + (11-11)² = 2
C群:
(12-13)² + (13-13)² + (14-13)² + (13-13)² = 2
したがって
SSW = 2 + 2 + 2 = 6
自由度は
- 群間自由度:
3 - 1 = 2
- 群内自由度:
12 - 3 = 9
したがって平均平方は
MSB = 32 / 2 = 16
MSW = 6 / 9 = 2/3
よって F値は
F = 16 / (2/3) = 24
となる。
したがって正解は 4。
まとめ
- 分散分析は、3群以上の平均差 を調べる方法
- 見ているのは
群間変動 ÷ 群内変動 - F値が大きいほど、平均差がありそう
- 帰無仮説は
「すべての群平均は等しい」 - 棄却しても、どの群が違うか まではこの段階では分からない
次に読む記事
練習問題(noteの記事へ)
関連する問題をまとめて練習したい方へ:
統計検定2級問題演習ドリル10問+解説


コメント