前回の振り返り:平均絶対誤差(MAE)
前回の記事では、平均絶対誤差(MAE)について解説しました。MAEは、予測値と実際の値の誤差の絶対値の平均を計算する指標で、外れ値に対して敏感ではないため、全体的な誤差のバランスを評価する際に適しています。特に、外れ値の影響が少ないタスクでは、安定した評価が可能な指標です。一方、誤差の絶対的な大きさを評価するため、大きな誤差を重視する必要がある場合には適していません。
今回は、回帰モデルのもう一つの重要な評価指標である決定係数(R²)について解説します。R²は、モデルがどれだけデータのばらつきを説明できるかを示す指標です。
決定係数(R²)とは?
決定係数(R²)は、回帰モデルがどれだけデータのばらつきを説明できるかを数値化した指標で、モデルの「説明力」を評価する際に使われます。R²の値は0から1の間で表され、1に近いほどモデルの説明力が高く、0に近いほど説明力が低いことを示します。
R²は、次のように計算されます。
[
R^2 = 1 – \frac{\sum_{i=1}^{n} (y_i – \hat{y}i)^2}{\sum{i=1}^{n} (y_i – \bar{y})^2}
]
ここで、
- (y_i) は実際の値(真値)、
- (\hat{y}_i) はモデルが予測した値、
- (\bar{y}) はデータ全体の平均値です。
この式は、モデルによる予測誤差(分子)を、データ全体のばらつき(分母)と比較する形で計算されています。
例えで理解するR²
R²を「学校のテストの成績」と例えるとわかりやすいです。クラス全体の平均点と比べて、特定の生徒がそのテストでどれだけ自分の実力を発揮できたかを測るようなものです。R²が1に近ければ、その生徒はクラスの平均点と比べても非常に良い成績を収めたことを意味し、R²が0に近い場合、その生徒の成績は平均点にほぼ依存してしまい、個別の実力を発揮できていないことを示します。
決定係数(R²)の計算例
では、実際にR²を計算してみましょう。
例:住宅価格予測モデル
住宅価格を予測するモデルが以下のようなデータを持っているとします。
- 実際の住宅価格(真値):\$300,000、\$400,000、\$500,000
- モデルの予測価格:\$320,000、\$390,000、\$510,000
まず、予測誤差の平方和を計算します。
- ( (300,000 – 320,000)^2 = 400,000,000 )
- ( (400,000 – 390,000)^2 = 100,000,000 )
- ( (500,000 – 510,000)^2 = 100,000,000 )
これらを合計すると、モデルによる予測誤差の平方和は600,000,000です。
次に、データ全体の平均値を計算します。
- ( \bar{y} = \frac{300,000 + 400,000 + 500,000}{3} = 400,000 )
次に、データ全体のばらつき(実際の値と平均値の差の平方和)を計算します。
- ( (300,000 – 400,000)^2 = 100,000,000 )
- ( (400,000 – 400,000)^2 = 0 )
- ( (500,000 – 400,000)^2 = 100,000,000 )
これらを合計すると、データ全体のばらつきの平方和は200,000,000です。
最後に、R²を計算します。
[
R^2 = 1 – \frac{600,000,000}{200,000,000} = 1 – 3 = -2
]
この結果、R²の値は-2となり、モデルの予測がデータ全体の平均値よりも悪いことを示しています。
R²が重要な場面
R²は、回帰モデルの性能を評価するために非常に重要です。特に、モデルがデータのばらつきをどれだけ説明できるかを示すため、モデルの精度や有効性を判断する際に使われます。R²が1に近いモデルは非常に高い説明力を持っており、実際のデータに対する予測の精度が高いことを示します。
R²のメリットとデメリット
メリット
- モデルの説明力がわかりやすい: R²は、0から1の範囲でモデルの説明力を数値化するため、モデルがどれだけデータのばらつきを説明できるかを直感的に理解することができます。
- 他のモデルと比較しやすい: R²は、同じデータセットに対して異なる回帰モデルを比較する際に便利です。R²が高いモデルほど、よりデータに適合していることを示します。
デメリット
- 過学習のリスクがある: R²が高すぎる場合、モデルが訓練データに過度に適合している可能性があります。これにより、モデルが新しいデータに対してうまく一般化できない過学習のリスクがあります。
- 非線形モデルには適していない場合がある: R²は線形回帰モデルに特に適していますが、非線形な関係を持つデータに対しては、R²が適切に性能を反映しないことがあります。
例えで理解するR²のデメリット
R²のデメリットを「スポーツチームの成績」に例えることができます。あるチームがホームゲームで非常に良い成績を収めても、アウェイゲームではその実力を発揮できないことがあります。これは、R²が高くても、そのモデルが訓練データに過度に適合してしまい、他のデータセットではうまく機能しない過学習のリスクを示しています。
R²の応用
R²は、回帰分析において広く使用され、特に次のような状況で有効です。
- 住宅価格予測: 住宅市場では、モデルが住宅価格の変動をどれだけ説明できるかをR²を使って評価します。
- 株価予測: 株価の動向を予測する際に、モデルが過去の価格のばらつきをどれだけ説明できるかを評価します。
- 売上予測: 売上データのばらつきを説明し、未来の売上予測の精度をR²で確認します。
まとめ
今回は、回帰モデルの説明力を示す指標である決定係数(R²)について解説しました。R²は、モデルがデータのばらつきをどれだけ説明できるかを評価するための重要な指標で、特に線形回帰モデルの性能を測るために広く使われています。ただし、R²が高すぎる場合は過学習のリスクがあるため、他の指標と併せて評価することが重要です。
次回予告
次回は、学習曲線の分析について解説します。学習曲線は、モデルの学習過程を視覚化して、どのように学習が進んでいるかを評価するためのツールです。次回もお楽しみに!
注釈
- 決定係数(R²): モデルがデータのばらつきをどれだけ説明できるかを示す指標。0から1の範囲で
評価され、1に近いほど説明力が高い。
- 過学習(Overfitting): モデルが訓練データに過度に適合し、新しいデータに対して性能が低下する現象。
- 線形回帰モデル(Linear Regression Model): 変数間の線形関係を利用して予測を行う回帰モデル。
- ばらつき(Variance): データが平均値からどれだけ離れているかを示す指標。
- 外れ値(Outliers): 他のデータポイントと比べて極端に異なる値を持つデータ。
コメント