前回の振り返り:混同行列とは
前回は、混同行列について学びました。分類モデルがどのように予測を行ったか、そしてその予測が正しかったかどうかを視覚的に整理した表形式の構造で、モデルのパフォーマンスを詳細に評価する手法でした。混同行列からは、モデルがどのクラスで間違えたか、どこで正しい予測を行ったかが一目でわかります。今回は、その混同行列から導かれる基本的な評価指標である正解率(Accuracy)について解説します。
正解率(Accuracy)とは?
正解率(Accuracy)は、モデルがどれだけ正確に予測できたかを示す基本的な指標です。モデルが全データに対して正しく予測した割合を表すもので、次の式で計算されます。
$[
\text{Accuracy} = \frac{\text{正しく予測したデータ数}}{\text{全データ数}}
]$
簡単に言えば、正解率は「モデルがどれだけ正しく予測したか」を示す割合です。分類問題で最も一般的に使用される評価指標の1つで、すべての予測結果を考慮に入れています。
例:スパムメールフィルタの正解率
たとえば、スパムメールをフィルタリングするモデルを考えてみましょう。あなたの受信トレイに1000通のメールがあり、そのうち900通がスパムで、100通が非スパムだとします。このモデルが900通のスパムメールのうち800通を正しくスパムと予測し、100通の非スパムメールのうち90通を正しく非スパムと予測した場合、正解率は次のように計算されます。
- 正しくスパムと予測した数(真陽性):800
- 正しく非スパムと予測した数(真陰性):90
- 合計メール数:1000
正解率は、
&[
\text{Accuracy} = \frac{800 + 90}{1000} = 0.89
]&
つまり、このモデルの正解率は89%となります。モデルはおおむね正しい予測を行っていることがわかります。
正解率の長所
正解率は、モデルの全体的なパフォーマンスを手軽に評価できるため、非常に便利な指標です。正解率を使えば、モデルがどれだけ正しく予測できたかを簡単に把握できます。特に、クラスの分布が均等な場合(例:データの50%がクラスA、50%がクラスB)には、正解率が有効です。
クラス分布が均等な場合
クラスが均等に分布しているデータセットで、正解率を使用するのは理にかなっています。たとえば、病気の有無を分類するモデルで、50%の患者が病気を持っており、50%が持っていない場合、正解率を使ってモデルのパフォーマンスを評価すると、全体のバランスが良く把握できます。
正解率の限界
正解率は便利な指標ですが、クラス不均衡が存在する場合には、その限界が顕著になります。クラス不均衡とは、データセット内であるクラスが他のクラスに比べて極端に多い、または少ない状況を指します。
例:クラス不均衡の問題
たとえば、データセットの99%がクラスA、1%がクラスBに属している場合を考えてみましょう。このような状況では、モデルがすべてのデータをクラスAと予測しても、正解率は99%となりますが、実際にはクラスBの予測がまったくできていないため、このモデルは問題があるといえます。
このような場合、正解率だけではモデルの本当の性能を評価するのに不十分です。クラス不均衡が大きいデータセットでは、精度(Precision)や再現率(Recall)といった他の指標も併用して評価する必要があります。
正解率と他の指標の違い
正解率は、すべての予測結果に対して正しいかどうかを評価するのに対し、適合率(Precision)は、モデルが正と予測した中で実際に正であった割合を評価します。また、再現率(Recall)は、実際に正であったデータをモデルがどれだけ正しく予測できたかを評価します。これらの指標は、特にクラス不均衡が問題となる場合に、正解率だけではカバーできない部分を補うために重要です。
正解率を使うべき場面
1. クラス分布が均等な場合
先ほども述べたように、クラスの分布が均等なデータセットでは、正解率は非常に有効な指標です。たとえば、テストの採点や、均等なデータ分布が期待されるケースでは、正解率が全体的なパフォーマンスを評価するのに役立ちます。
2. 初期評価として使用
正解率は、機械学習モデルを開発する際の初期評価として使うのに最適です。シンプルで理解しやすいため、どの程度モデルが機能しているかを早い段階で確認することができます。その後、適合率や再現率、F1スコアなど、より詳細な指標に基づいた評価を追加して、モデルを改善していくことができます。
まとめ
今回は、正解率(Accuracy)について詳しく解説しました。正解率は、全体的な予測の正しさを示すシンプルで強力な指標です。特にクラス分布が均等なデータセットでは、正解率はモデルのパフォーマンスを迅速かつ簡単に評価するための有用な指標です。しかし、クラス不均衡が存在する場合には、正解率だけではモデルの性能を十分に把握できないことがあります。そのため、精度や再現率といった他の指標と組み合わせて評価することが重要です。
次回予告
次回は、適合率(Precision)について学びます。モデルが正と予測した中で、実際に正解であった割合を解説します。
注釈
- 正解率(Accuracy): 全データに対して正しく予測された割合を示す指標。
- クラス不均衡: データセット内で特定のクラスが他のクラスに比べて大幅に多い、または少ない状態。
- 精度(Precision): モデルが正と予測した中で実際に正しかった割合。
- 再現率(Recall): 実際に正であったデータの中でモデルがどれだけ正しく予測できたかを示す指標。
コメント