決定係数 R^2とは?意味と読み方を回帰分析の出力例で解説【統計検定2級】

回帰・相関

回帰分析の結果を見ると、よく 決定係数 R2R^2 が出てきます。

ただ、ここで多くの人が混乱します。

  • R2=0.8R^2=0.8 なら何が言えるのか
  • 相関係数とどう違うのか
  • 値が大きければ必ず良いモデルなのか

統計検定2級では、
「決定係数の意味を正しく読めるか」
がかなり重要です。

この記事では、

  • 決定係数の意味
  • 出力表の読み方
  • 相関係数との違い
  • よくある誤解

を、過去問で出やすい形式に寄せて整理します。


この記事で分かること

  • 決定係数 R2R^2の意味
  • R2R^2が大きい/小さいと何が言えるか
  • 相関係数との違い
  • 単回帰と重回帰での見方
  • 統計検定2級での典型的な問われ方

決定係数 R2R^2とは?

決定係数 R2R^2 は、

目的変数のばらつきのうち、回帰式で説明できた割合

を表します。

たとえば、

R² = 0.64

なら、

目的変数のばらつきの64%を、この回帰式で説明できている

と読みます。


「説明できた割合」とはどういうことか

回帰分析では、目的変数 yyy のばらつきを

  • 回帰式で説明できる部分
  • 説明できずに残った部分

に分けて考えます。

決定係数 R2R^2は、そのうち

説明できた部分 ÷ 全体のばらつき

です。

だから、値の範囲は

0 ~ 1

になります。


値の読み方

R2R^2が 1 に近いとき

  • 回帰式でかなりよく説明できている
  • データが回帰直線(または回帰平面)によく沿っている

R2R^2が 0 に近いとき

  • 回帰式であまり説明できていない
  • データのばらつきが大きく、説明変数だけでは捉えにくい

問題1

ある単回帰分析の結果、次の出力が得られた。

項目
重相関 R 0.80
決定係数 R² 0.64

この結果の解釈として最も適切なのはどれか。
A. 説明変数が目的変数を 80% 説明している
B. 目的変数のばらつきの 64% を回帰式で説明できている
C. 回帰式の予測は必ず正しい
D. 説明できないばらつきは存在しない


解答

B


解説

決定係数 R2=0.64R^2 = 0.64の意味は、

目的変数のばらつきの64%を回帰式で説明できている

です。

A は相関係数 R=0.80R=0.80 をそのまま説明率と誤解しています。
C や D も言いすぎです。
R2R^2が 1 未満なら、説明できないばらつきも残っています。


単回帰では R2=r2R^2 = r^2R2=r2

単回帰では、決定係数 R2R^2相関係数 rの2乗 になります。

たとえば、

r = 0.8

なら、

R² = 0.8² = 0.64

です。

ここは統計検定2級でかなりよく問われます。


ただし、相関係数と決定係数は同じではない

相関係数 rrは、

  • 方向(正か負か)
  • 強さ

を持っています。

一方、決定係数 R2R^22乗している ので、

  • 常に 0以上
  • 方向の情報は消える

という違いがあります。

たとえば、

r = -0.8

でも、

R² = 0.64

です。

つまり、R2R^2だけ見ても、正の関係か負の関係かは分かりません。


問題2

相関係数が 0.7-0.7のとき、単回帰における決定係数として正しいものはどれか。
A. 0.7-0.7
B. 0.49-0.49
C. 0.490.49
D. 0.700.70


解答

C


解説

単回帰では

R² = r²

なので、

(-0.7)² = 0.49

です。

決定係数は負になりません。


決定係数が高ければ必ず良いモデルか?

ここもよく問われます。
結論から言うと、必ずしもそうではありません。

理由は次の通りです。

  • たまたまデータに強く当てはまっているだけかもしれない
  • 外れ値の影響を受けているかもしれない
  • 説明変数を増やすと R2R^2は上がりやすい
  • 因果関係まで示すものではない

つまり、R2R^2は重要な指標ですが、
それだけでモデルの良し悪しを決めることはできません。


重回帰では「調整済み決定係数」にも注意

重回帰では、説明変数を増やすと R2R^2は基本的に下がりません。
そのため、単純な R2R^2だけだと「変数を増やしただけ」で良く見えてしまうことがあります。

そこで使われるのが 調整済み決定係数 です。

統計検定2級では、

  • R2R^2:説明できた割合
  • 調整済み R2R^2:説明変数の数を考慮した指標

くらいの理解で十分です。


回帰出力ではどこを見るか

回帰分析の出力では、よく次のような項目が並びます。

項目 意味
重相関 R 相関の強さ(単回帰では相関係数に対応)
決定係数 R² 説明できた割合
調整済み R² 説明変数の数を調整した説明率

問題3

重回帰分析の結果、決定係数 R2=0.72R^2 = 0.72であった。
この結果から言えることとして最も適切なのはどれか。
A. 目的変数のばらつきの72%を回帰式で説明できている
B. 各説明変数がすべて有意である
C. 目的変数の72%を正確に予測できる
D. 残差は存在しない


解答

A


解説

R2=0.72R^2 = 0.72は、

目的変数のばらつきの72%を回帰式で説明できている

という意味です。

ただし、それだけで

  • 各説明変数が有意
  • 予測が正確
  • 残差がない

とは言えません。


よくあるミス

  1. 相関係数と決定係数を同じものだと思ってしまう
    → 単回帰では関係がありますが、意味は違います。
  2. R2R^2=0.8を「80%当たる」と読んでしまう
    → 予測の正答率ではありません。説明できたばらつきの割合です。
  3. 決定係数だけでモデルの良し悪しを判断してしまう
    → p値、F検定、残差、変数数なども見る必要があります。
  4. 負の相関なら決定係数も負になると思ってしまう
    → 決定係数は 0以上 です。

追加練習

ある単回帰分析の結果、説明変数 xxx と目的変数 yy について、標本相関係数が r=0.70r=-0.70 であった。
このとき、決定係数 R2R^2 の値と、その解釈として最も適切なものを、次の 1〜4 のうちから1つ選べ。

  1. R2=0.49R^2 = -0.49 であり、目的変数のばらつきの49%を説明できていない
  2. R2=0.49R^2 = 0.49 であり、目的変数のばらつきの49%を回帰式で説明できている
  3. R2=0.70R^2 = 0.70 であり、目的変数の70%を正確に予測できる
  4. R2=0.70R^2 = -0.70 であり、負の相関なので決定係数も負になる

解答

2

解説

単回帰では、決定係数 R2R^2 は標本相関係数 rrの2乗である。

R² = r²

したがって今回は

R² = (-0.70)² = 0.49

となる。

決定係数 R2R^2 は、

目的変数のばらつきのうち、回帰式で説明できた割合

を表す。
したがって

R² = 0.49

なら、

目的変数のばらつきの49%を、この回帰式で説明できている

と解釈する。

ここで注意したいのは、相関係数が負であっても、決定係数は2乗するので負にならないことである。
また、決定係数は「予測の正答率」ではないので、
「70%を正確に予測できる」といった解釈は誤りである。

よって正解は 2


まとめ

  • 決定係数 R2R^2 は、目的変数のばらつきのうち説明できた割合
  • 単回帰では
R² = r²
  • 決定係数は 0以上1以下
  • R2R^2だけでモデルの良し悪しは決められない
  • 重回帰では調整済み決定係数も重要

次に読む


練習問題(noteの記事へ)

関連する問題をまとめて練習したい方へ:
統計検定2級問題演習ドリル10問+解説

コメント

タイトルとURLをコピーしました