前回の振り返り:平均二乗誤差(MSE)
前回の記事では、平均二乗誤差(MSE)について解説しました。MSEは、予測値と実際の値の誤差を二乗して平均を取ることで算出され、特に大きな誤差を重視する評価指標です。外れ値がある場合にMSEは非常に大きくなるため、モデルが大きな誤差を出す場面での警告として機能します。
しかし、MSEには外れ値に対して敏感であるというデメリットもあります。そこで、より外れ値に対して安定した評価ができる指標として、今回紹介する平均絶対誤差(Mean Absolute Error, MAE)があります。
平均絶対誤差(MAE)とは?
平均絶対誤差(MAE)は、モデルの予測値と実際の値との間の誤差の絶対値を平均したものです。MSEのように誤差を二乗せずに、単純に誤差の絶対値を取って平均するため、外れ値の影響を減らすことができます。
MAEの計算式は次の通りです。
[
\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i – \hat{y}_i|
]
ここで、
- (y_i) は実際の値(真値)、
- (\hat{y}_i) はモデルが予測した値、
- (n) はデータポイントの数です。
MAEは、MSEとは異なり、すべての誤差を等しく扱うため、大きな誤差による影響が抑えられます。
例えで理解するMAE
MAEを「リーダーが受け取るフィードバック」と例えるとわかりやすいです。リーダーが受け取るフィードバックが、1つの大きなミスに集中していると、それに強く影響を受けてしまうことがあります(これがMSEのような状態です)。一方、MAEのように、すべてのフィードバックを等しく扱うと、ミスが少なく、全体的なパフォーマンスがより安定した評価を受けることができます。
MAEの計算例
では、具体的な例を使ってMAEを計算してみましょう。
例:住宅価格予測モデル
住宅価格を予測するモデルがあるとします。実際の住宅価格が以下のように与えられています。
- 実際の価格(真値):\$300,000、\$400,000、\$500,000
- モデルの予測価格:\$320,000、\$390,000、\$510,000
MAEを計算するために、まずは予測値と実際の値の差を絶対値にします。
- ( |300,000 – 320,000| = 20,000 )
- ( |400,000 – 390,000| = 10,000 )
- ( |500,000 – 510,000| = 10,000 )
次に、これらの差の絶対値を足し合わせて平均を取ります。
[
\text{MAE} = \frac{20,000 + 10,000 + 10,000}{3} = 13,333
]
この住宅価格予測モデルのMAEは\$13,333です。これは、モデルの予測値と実際の住宅価格との平均誤差が約\$13,333であることを意味します。
MAEが重要な場面
MAEは、誤差が小さい場合も大きい場合も同じ重みで扱われるため、外れ値の影響が少ないタスクでよく使われます。例えば、商品の価格予測や営業成績の予測など、極端に大きな誤差が出ない状況ではMAEが有効です。
MAEのメリットとデメリット
メリット
- 外れ値に対する影響が小さい: MAEは誤差を絶対値に変換して扱うため、外れ値によって評価が極端に歪むことが少なくなります。
- 解釈が容易: MAEは、誤差の絶対的な平均を示すため、モデルの予測と実際の値が平均的にどれだけずれているかを直感的に理解しやすい指標です。
デメリット
- 大きな誤差に対する感度が低い: MSEと比べると、MAEは大きな誤差に対してそれほど敏感ではありません。そのため、非常に大きな誤差が問題となる状況では、MAEだけでモデルの評価を行うと不十分な場合があります。
- 最適化が難しい場合がある: 機械学習モデルの最適化において、絶対値は微分しづらいため、MAEを使ったモデルの学習はMSEに比べて困難な場合があります。
例えで理解するMAEのメリットとデメリット
MAEのメリットとデメリットを「チーム全体の成績評価」と例えることができます。MAEは全員の成績を均等に評価するので、誰かが極端に悪い成績を取っても、チーム全体の評価は大きく影響を受けません(メリット)。しかし、もし特定のメンバーが重要なミスをしている場合、それが評価に十分反映されないこともあります(デメリット)。
MSEとの比較
MSEとMAEは、どちらも回帰モデルの誤差を評価するために使われますが、それぞれ異なる特徴があります。MSEは大きな誤差に対して敏感であるため、大きな誤差が許容されない場面で使用されます。一方、MAEは外れ値に対して敏感ではなく、安定した評価が求められる場合に適しています。
例えで理解するMSEとMAEの違い
MSEとMAEの違いを「特定のイベントの評価」と例えることができます。例えば、重要な試験での成績を評価する場合、MSEのような指標は大きなミスが重視されます。一方、日常の小テストの成績を評価する場合、MAEのような指標はミスが平均的に評価されるため、全体的な成績を安定して見ることができます。
MAEの応用
MAEは、回帰モデルにおける予測誤差を測定する際に広く使用されます。以下のような状況でMAEが特に有効です。
- 売上予測: 売上データは比較的安定しており、外れ値が少ないため、MAEによってモデルの予測精度を評価できます。
- 気象予測: 気温や降水量などの気象データも、外れ値がそれほど大きくない場合には、MAEを使って予測精度を測定することが適しています。
まとめ
今回は、回帰モデルの誤差を評価するための指標の一つである平均絶対誤差(MAE)について解説しました。MAEは、外れ値に対して敏感ではなく、誤差の絶対値を平均するため、安定した評価を提供します。大きな誤差に対して敏感なMSEと比較して、MAEは全体の誤差を均等に評価します。
次回予告
次回は、決定係数(R²)について解説します。R²は、回帰モデルの説明力を示す指標で、モデルがどれだけデータのばらつきを説明できているかを評価します。次回もお楽しみに!
注釈
- 平均絶対誤差(MAE): 予測値と実際の値の誤差の絶対値の平均を取る指標。
- 平均二乗誤差(MSE): 予測値と実際の値の誤差を二乗して平均した指標。大きな誤差に対して敏
感。
- 外れ値(Outliers): データセットの中で、他のデータポイントと比べて極端に異なる値。
- 誤差の絶対値: 実際の値と予測値の差の絶対値。正負を無視して誤差の大きさだけを評価する。
- 決定係数(R²): モデルがデータのばらつきをどれだけ説明できているかを示す指標。
コメント