前回のおさらいと今回のテーマ
こんにちは!前回は、分類問題におけるモデルの性能を評価するための指標として、精度、再現率、F1スコアなどを学びました。これらの指標は、予測結果がカテゴリに分類される場合に使われますが、今回は回帰問題における評価指標を見ていきます。
回帰問題では、数値を予測するモデルを評価するために、異なる評価指標が必要です。例えば、家の価格を予測するモデルや、気温の予測を行うモデルなどが該当します。回帰問題では、平均二乗誤差(Mean Squared Error: MSE)や平均絶対誤差(Mean Absolute Error: MAE)といった指標が使われます。

回帰問題とは?
まず、回帰問題とは、連続する数値を予測する問題のことです。例えば、次のようなタスクが回帰問題に該当します。
- 住宅価格の予測
- 将来の気温の予測
- 売上高の予測
これに対して、分類問題では、予測対象はあらかじめ定められたカテゴリ(例:犬か猫か、スパムメールか否か)です。回帰問題では、予測された値と実際の値の違いを評価するための数値的な誤差が重要です。
評価指標の種類(回帰編)
回帰問題では、数値の予測誤差を評価するために様々な指標が使われます。以下に、代表的な評価指標を説明します。
1. 平均二乗誤差(MSE: Mean Squared Error)
平均二乗誤差(MSE)は、予測値と実際の値の誤差を二乗して平均したものです。MSEは、誤差が大きいほどその影響が強く出るため、誤差の大きい予測に対してペナルティを与える指標です。
MSEの計算式
\[
MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i – \hat{y_i})^2
\]
ここで、
\(n\) はデータのサンプル数
\(y_i\) は実際の値
\(\hat{y_i}\) は予測された値です。
MSEは、誤差を二乗して計算するため、予測誤差が大きくなるとその影響も大きくなります。これにより、外れ値(大きく外れた予測)が特に影響を与える場合に有効です。
2. 平均絶対誤差(MAE: Mean Absolute Error)
平均絶対誤差(MAE)は、予測値と実際の値の絶対誤差の平均を取ったものです。MSEとは異なり、誤差を二乗することなく、そのままの大きさで評価するため、外れ値の影響を受けにくいのが特徴です。
MAEの計算式
\[
MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i – \hat{y_i}|
\]
MAEは、すべての誤差を均等に扱うため、MSEと比べて外れ値に対して寛容な指標となります。例えば、ある特定のデータポイントで大きな誤差が生じても、全体の評価にはあまり影響を与えません。
3. 平均二乗対数誤差(MSLE: Mean Squared Logarithmic Error)
平均二乗対数誤差(MSLE)は、MSEと似ていますが、誤差をそのまま二乗するのではなく、対数を取ってから二乗します。これにより、大きな値の誤差を抑える効果があり、特に予測値と実際の値の比率が重要な場合に有効です。
MSLEの計算式
\[
MSLE = \frac{1}{n} \sum_{i=1}^{n} (\log(1 + y_i) – \log(1 + \hat{y_i}))^2
\]
MSLEは、絶対値が大きい予測に対して過剰に罰を与えることなく、全体の誤差を評価できるため、特に成長率や比率を予測するタスクに適しています。
4. 決定係数(R²: Coefficient of Determination)
決定係数(R²)は、モデルがどれだけよくデータを説明しているかを示す指標です。R²の値は0から1の範囲を取り、1に近いほど、モデルがデータの変動をよく説明していることを意味します。逆に、0に近い場合は、モデルの予測がデータの変動をほとんど説明できていないことを示します。
R²の計算式
\[
R^2 = 1 – \frac{\sum_{i=1}^{n} (y_i – \hat{y_i})^2}{\sum_{i=1}^{n} (y_i – \bar{y})^2}
\]
ここで、
\( \bar{y} \) は実際の値の平均です。
R²は、モデルの予測がどの程度良好かを相対的に評価するのに適しています。R²が1に近い場合、モデルは非常に高い精度で予測を行っていることを意味します。
5. Huber損失(Huber Loss)
Huber損失は、MAEとMSEの中間的な指標です。誤差が小さい範囲では二乗誤差(MSE)を使い、誤差が大きくなると絶対誤差(MAE)に切り替えるため、外れ値に対して過敏すぎず、かつ誤差が小さい場合の精度も確保できます。
Huber損失の計算式
\[
L_{\delta}(a) =
\begin{cases}
\frac{1}{2} a^2 & \text{if } |a| \leq \delta, \
\delta (|a| – \frac{1}{2} \delta) & \text{otherwise.}
\end{cases}
\]
Huber損失は、外れ値の影響を軽減しつつ、モデルの精度を保つために有効です。
評価指標の選び方
回帰問題では、使用する評価指標はタスクの目的に応じて選ぶ必要があります。例えば、外れ値に敏感なタスクであればMSEが適している一方で、外れ値の影響を減らしたい場合にはMAEやHuber損失が有効です。
1. 外れ値に敏感な場合
外れ値(異常値)が重要で、誤差が大きくなることが問題となる場合は、MSEが最も適した指標です。誤差が二乗されるため、外れ値による影響が強調されます。
2. 外れ値の影響を減らしたい場合
外れ値の影響を減らし、全体の誤差を平均的に評価したい場合は、MAEが適しています。すべての誤差を均等に扱うため、大きな誤差が出ても全体に与える影響は少なくなります。
3. 比率や成長率を重視する場合
比率や成長率を予測するタスクでは、MSLEが有効です。MSLEは、予測値と実際の値の比率を考慮した誤差評価が可能で、特に大きな値の誤差を抑える効果があります。
実際の応用例
住宅価格予測
住宅価格の予測モデルでは、一般的にMAEやMSEが使われます。住宅価格のデータは時に大きな外れ値が存在するため、外れ値を
重視したい場合はMSEを使い、全体の誤差を平均的に評価したい場合はMAEが適しています。
売上予測
売上高の予測では、MSLEが効果的です。成長率や比率が重要なタスクでは、予測値と実際の値の比率を重視した誤差評価が必要となるため、MSLEが適した指標です。
気象予測
気象データの予測では、外れ値の影響を最小限にしたい場合にHuber損失が使われます。気温などの予測では、一部の外れ値が極端に大きな影響を与えることがあるため、Huber損失を使って安定したモデル評価が可能です。
次回
今回は、回帰問題における代表的な評価指標について解説しました。平均二乗誤差(MSE)、平均絶対誤差(MAE)、決定係数(R²)などの指標を使うことで、モデルがどれだけ正確に予測しているかを評価できます。次回は、これまで学んだ内容を振り返り、理解度をチェックする第2章のまとめと理解度チェックに移ります。引き続き、回帰問題と分類問題の違いを意識しながら、学びを深めていきましょう!
まとめ
今回は、回帰問題におけるモデルの評価指標について学びました。MSEやMAE、MSLEといった評価指標は、モデルが予測した数値の精度を多角的に評価するために欠かせません。これらの指標を適切に使い分けることで、モデルの性能を正確に把握し、必要な改善点を見つけることができます。次回は、第2章のまとめと理解度チェックを行い、学んだ内容を振り返っていきましょう!
注釈
- 回帰問題: 連続する数値を予測する問題のこと。分類問題とは異なり、予測結果が数値である。
- 外れ値: 他のデータポイントから大きく外れた異常な値のこと。

コメント