前回の振り返り:正解率(Accuracy)
前回の記事では、正解率(Accuracy)について解説しました。正解率とは、モデルが全体のデータに対して、どれだけ正確に予測できたかを示す指標です。具体的には、正解率は「正しく予測されたデータの割合」を表し、機械学習モデルの性能をシンプルに評価するための一般的な指標です。
しかし、正解率だけではモデルの性能を完全に把握できない場合があります。特に、データセットに不均衡がある場合、正解率だけでは誤った評価を導く可能性があります。そこで、今回のテーマである適合率(Precision)や、次回紹介する再現率(Recall)といった他の指標も併せて評価することが重要になります。
適合率(Precision)とは?
適合率(Precision)は、モデルが「正解だ」と予測したデータの中で、実際に正解だったデータの割合を示す指標です。適合率は、特に「正しい予測の精度」に焦点を当てており、モデルが予測した結果の信頼性を測るために使われます。
具体的には、適合率は以下のように計算されます。
[
\text{適合率} = \frac{\text{真陽性(True Positive, TP)}}{\text{真陽性(TP)} + \text{偽陽性(False Positive, FP)}}
]
例えで理解する適合率
適合率を「探し物の成功率」に例えると分かりやすいです。たとえば、友達が失くした鍵を探すとしましょう。10個の鍵を見つけたとして、そのうち7つが実際に友達の鍵であれば、適合率は7/10=0.7、つまり70%です。この場合、適合率は「見つけた鍵のうち、本当に友達の鍵であった割合」を示します。偽物の鍵をたくさん見つけたとしても、それは適合率を下げる要因となります。
適合率の計算例
適合率をより具体的に理解するために、以下の例を考えます。
例:スパムメールフィルタ
スパムメールをフィルタするモデルを作成したとします。フィルタが100通のメールのうち、20通をスパムだと判断しました。その中で、実際にスパムメールであったのは15通でした。つまり、フィルタが間違って「スパムだ」と判断したメールが5通あったということです。
この場合、適合率は次のように計算されます。
- 真陽性(TP): 実際にスパムであり、スパムと判断されたメール = 15通
- 偽陽性(FP): スパムでないのに、スパムと誤って判断されたメール = 5通
[
\text{適合率} = \frac{15}{15 + 5} = 0.75
]
このスパムフィルタの適合率は75%であり、スパムメールと判断されたメールのうち、75%が実際にスパムであることを意味します。
適合率の高いモデルが重要な場面
適合率が重要になる場面は、「偽陽性(FP)」の影響が大きな場合です。たとえば、医療分野では、誤って病気があると判断される(偽陽性)が発生することは患者に余計な不安や不必要な検査を引き起こす可能性があります。したがって、医療の診断モデルにおいては、適合率が非常に重要な評価指標となります。
適合率が高いモデルでは、モデルが「これは正解だ」と判断したデータが実際に正しい割合が高いことを意味し、予測結果に対して高い信頼性を持つことができます。
適合率と他の評価指標の関係
適合率は、再現率(Recall)やF1スコアと密接な関係があります。これらの指標は、異なる視点からモデルの性能を評価し、それぞれのバランスを取ることが大切です。
- 適合率(Precision): モデルが正しいと予測したデータの中で、実際に正解だった割合。
- 再現率(Recall): 実際の正解データの中で、モデルが正しく予測した割合。次回で詳しく説明します。
- F1スコア: 適合率と再現率の調和平均で、両方のバランスを評価する指標。
適合率が高ければ、モデルが予測したものは非常に信頼性が高いということですが、一方で再現率が低ければ、実際の正解データの多くを見逃している可能性があります。そのため、モデルの目的に応じて、適合率や再現率のバランスを取ることが重要です。
例えで理解する適合率と再現率の関係
適合率と再現率の関係を「泥棒を捕まえる警察」と例えるとわかりやすいです。警察が泥棒を捕まえる(適合率)ことに集中しすぎると、無実の人まで誤って逮捕してしまう(偽陽性)。一方、再現率を重視しすぎると、泥棒を見逃してしまう(偽陰性)。したがって、両方のバランスが必要なのです。
まとめ
今回は、機械学習モデルの性能評価指標の一つである適合率(Precision)について解説しました。適合率は、モデルが予測した結果の信頼性を評価する指標であり、特に偽陽性(FP)の影響を抑えたい場面で重要な役割を果たします。適合率だけでなく、再現率やF1スコアとのバランスを考えながら、モデルの性能を総合的に評価することが求められます。
次回予告
次回は、再現率(Recall)について解説します。再現率は、実際の正解データの中でモデルがどれだけ正しく予測したかを示す指標です。次回もお楽しみに!
注釈
- 真陽性(True Positive, TP): 正しく予測された正解データ。
- 偽陽性(False Positive, FP): 間違って正解だと予測されたデータ。
- 適合率(Precision): モデルが予測した正解の中で、実際に正解であった割合。
- 再現率(Recall): 実際の正解データの中で、モデルが正しく予測した割合。
- F1スコア: 適合率と再現率の調和平均を取った評価指標。
コメント