回帰分析の結果を見ると、よく 決定係数 が出てきます。
ただ、ここで多くの人が混乱します。
- なら何が言えるのか
- 相関係数とどう違うのか
- 値が大きければ必ず良いモデルなのか
統計検定2級では、
「決定係数の意味を正しく読めるか」
がかなり重要です。
この記事では、
- 決定係数の意味
- 出力表の読み方
- 相関係数との違い
- よくある誤解
を、過去問で出やすい形式に寄せて整理します。
この記事で分かること
- 決定係数 の意味
- が大きい/小さいと何が言えるか
- 相関係数との違い
- 単回帰と重回帰での見方
- 統計検定2級での典型的な問われ方
決定係数 R2R^2とは?
決定係数 は、
目的変数のばらつきのうち、回帰式で説明できた割合
を表します。
たとえば、
R² = 0.64
なら、
目的変数のばらつきの64%を、この回帰式で説明できている
と読みます。
「説明できた割合」とはどういうことか
回帰分析では、目的変数 y のばらつきを
- 回帰式で説明できる部分
- 説明できずに残った部分
に分けて考えます。
決定係数 は、そのうち
説明できた部分 ÷ 全体のばらつき
です。
だから、値の範囲は
0 ~ 1
になります。
値の読み方
R2R^2が 1 に近いとき
- 回帰式でかなりよく説明できている
- データが回帰直線(または回帰平面)によく沿っている
R2R^2が 0 に近いとき
- 回帰式であまり説明できていない
- データのばらつきが大きく、説明変数だけでは捉えにくい
問題1
ある単回帰分析の結果、次の出力が得られた。
| 項目 | 値 |
|---|---|
| 重相関 R | 0.80 |
| 決定係数 R² | 0.64 |
この結果の解釈として最も適切なのはどれか。
A. 説明変数が目的変数を 80% 説明している
B. 目的変数のばらつきの 64% を回帰式で説明できている
C. 回帰式の予測は必ず正しい
D. 説明できないばらつきは存在しない
解答
B
解説
決定係数 の意味は、
目的変数のばらつきの64%を回帰式で説明できている
です。
A は相関係数 をそのまま説明率と誤解しています。
C や D も言いすぎです。
が 1 未満なら、説明できないばらつきも残っています。
単回帰では R2=r2R^2 = r^2R2=r2
単回帰では、決定係数 は 相関係数 rの2乗 になります。
たとえば、
r = 0.8
なら、
R² = 0.8² = 0.64
です。
ここは統計検定2級でかなりよく問われます。
ただし、相関係数と決定係数は同じではない
相関係数 は、
- 方向(正か負か)
- 強さ
を持っています。
一方、決定係数 は 2乗している ので、
- 常に 0以上
- 方向の情報は消える
という違いがあります。
たとえば、
r = -0.8
でも、
R² = 0.64
です。
つまり、だけ見ても、正の関係か負の関係かは分かりません。
問題2
相関係数が のとき、単回帰における決定係数として正しいものはどれか。
A.
B.
C.
D.
解答
C
解説
単回帰では
R² = r²
なので、
(-0.7)² = 0.49
です。
決定係数は負になりません。
決定係数が高ければ必ず良いモデルか?
ここもよく問われます。
結論から言うと、必ずしもそうではありません。
理由は次の通りです。
- たまたまデータに強く当てはまっているだけかもしれない
- 外れ値の影響を受けているかもしれない
- 説明変数を増やすと は上がりやすい
- 因果関係まで示すものではない
つまり、は重要な指標ですが、
それだけでモデルの良し悪しを決めることはできません。
重回帰では「調整済み決定係数」にも注意
重回帰では、説明変数を増やすと は基本的に下がりません。
そのため、単純な だけだと「変数を増やしただけ」で良く見えてしまうことがあります。
そこで使われるのが 調整済み決定係数 です。
統計検定2級では、
- :説明できた割合
- 調整済み :説明変数の数を考慮した指標
くらいの理解で十分です。
回帰出力ではどこを見るか
回帰分析の出力では、よく次のような項目が並びます。
| 項目 | 意味 |
|---|---|
| 重相関 R | 相関の強さ(単回帰では相関係数に対応) |
| 決定係数 R² | 説明できた割合 |
| 調整済み R² | 説明変数の数を調整した説明率 |
問題3
重回帰分析の結果、決定係数 であった。
この結果から言えることとして最も適切なのはどれか。
A. 目的変数のばらつきの72%を回帰式で説明できている
B. 各説明変数がすべて有意である
C. 目的変数の72%を正確に予測できる
D. 残差は存在しない
解答
A
解説
は、
目的変数のばらつきの72%を回帰式で説明できている
という意味です。
ただし、それだけで
- 各説明変数が有意
- 予測が正確
- 残差がない
とは言えません。
よくあるミス
- 相関係数と決定係数を同じものだと思ってしまう
→ 単回帰では関係がありますが、意味は違います。 - =0.8を「80%当たる」と読んでしまう
→ 予測の正答率ではありません。説明できたばらつきの割合です。 - 決定係数だけでモデルの良し悪しを判断してしまう
→ p値、F検定、残差、変数数なども見る必要があります。 - 負の相関なら決定係数も負になると思ってしまう
→ 決定係数は 0以上 です。
追加練習
ある単回帰分析の結果、説明変数 x と目的変数 について、標本相関係数が であった。
このとき、決定係数 の値と、その解釈として最も適切なものを、次の 1〜4 のうちから1つ選べ。
- であり、目的変数のばらつきの49%を説明できていない
- であり、目的変数のばらつきの49%を回帰式で説明できている
- であり、目的変数の70%を正確に予測できる
- であり、負の相関なので決定係数も負になる
解答
2
解説
単回帰では、決定係数 は標本相関係数 の2乗である。
R² = r²
したがって今回は
R² = (-0.70)² = 0.49
となる。
決定係数 は、
目的変数のばらつきのうち、回帰式で説明できた割合
を表す。
したがって
R² = 0.49
なら、
目的変数のばらつきの49%を、この回帰式で説明できている
と解釈する。
ここで注意したいのは、相関係数が負であっても、決定係数は2乗するので負にならないことである。
また、決定係数は「予測の正答率」ではないので、
「70%を正確に予測できる」といった解釈は誤りである。
よって正解は 2。
まとめ
- 決定係数 は、目的変数のばらつきのうち説明できた割合
- 単回帰では
R² = r²
- 決定係数は 0以上1以下
- だけでモデルの良し悪しは決められない
- 重回帰では調整済み決定係数も重要
次に読む
練習問題(noteの記事へ)
関連する問題をまとめて練習したい方へ:
統計検定2級問題演習ドリル10問+解説


コメント