前回の振り返り:再現率(Recall)
前回の記事では、再現率(Recall)について解説しました。再現率は、実際の正解データの中でモデルがどれだけ正しく予測できたかを示す指標です。特に、偽陰性(False Negative, FN)が大きな影響を与える場合、再現率は非常に重要な評価指標となります。例えば、がん診断モデルなどでは、がん患者を見逃さないことが最も重要であり、再現率を高めることが必要とされます。
一方で、適合率(Precision)も重要です。適合率は、モデルが「正解だ」と予測したものが、実際にどれだけ正しかったかを示す指標です。適合率と再現率はしばしばトレードオフの関係にあり、一方を高めるともう一方が下がることがあります。この2つの指標のバランスを取るために、F1スコアという評価指標が利用されます。
F1スコアとは?
F1スコアは、適合率(Precision)と再現率(Recall)の調和平均を取った指標です。適合率と再現率のバランスを評価するために使われ、特にデータの不均衡がある場合や、両者のどちらか一方だけではモデルの性能を正確に評価できない場合に重要です。
F1スコアの計算式は次のようになります。
[
\text{F1スコア} = 2 \times \frac{\text{適合率(Precision)} \times \text{再現率(Recall)}}{\text{適合率(Precision)} + \text{再現率(Recall)}}
]
この計算式は、適合率と再現率が均等に重要である場合の評価を行う際に役立ちます。F1スコアが高ければ、適合率と再現率のバランスが良いことを示します。
例えで理解するF1スコア
F1スコアを「試験の総合成績」と例えることができます。試験で、理解力を測る問題(適合率)と、スピードを問う問題(再現率)の2種類があるとしましょう。どちらか一方だけではなく、両方をうまくこなすことで、高いF1スコア、つまり総合的な成績を得ることができます。F1スコアは、両方の側面をバランス良く評価するための指標です。
F1スコアの計算例
では、実際の例を用いてF1スコアを計算してみましょう。
例:スパムメールフィルタのF1スコア
スパムメールフィルタのモデルが、100通のメールのうち、スパムと判定したのが20通、その中で15通が正しくスパムで、5通がスパムではないものを誤って判定しました。また、実際にはスパムだった10通を見逃しました(偽陰性)。
この場合、適合率と再現率は次のように計算されます。
- 適合率(Precision) = 真陽性(TP) / (真陽性(TP) + 偽陽性(FP))
- 真陽性(TP) = 15
- 偽陽性(FP) = 5
- 適合率 = 15 / (15 + 5) = 0.75
- 再現率(Recall) = 真陽性(TP) / (真陽性(TP) + 偽陰性(FN))
- 偽陰性(FN) = 10
- 再現率 = 15 / (15 + 10) = 0.6
次に、F1スコアを計算します。
[
\text{F1スコア} = 2 \times \frac{0.75 \times 0.6}{0.75 + 0.6} = 2 \times \frac{0.45}{1.35} = 0.67
]
このスパムフィルタのF1スコアは0.67です。適合率と再現率のバランスを取った結果、このスコアは平均的なパフォーマンスを示しています。
F1スコアが重要な場面
F1スコアが特に重要になるのは、データの不均衡がある場合です。例えば、詐欺検出や異常検知のように、異常なケースが非常に少ないデータセットでは、正解率(Accuracy)だけではモデルの性能を正確に評価できません。F1スコアは、適合率と再現率をバランス良く評価できるため、特にこうした場面で適しています。
F1スコアのメリットとデメリット
メリット
- 適合率と再現率のバランス評価: 適合率と再現率のどちらか一方に偏らないため、モデルの総合的な性能を評価できます。
- 不均衡データに強い: データの不均衡がある場合でも、適合率や再現率のような一面的な評価に頼らず、バランス良く評価できる。
デメリット
- バランスが重視される: 適合率と再現率が同じ重みで評価されるため、どちらか一方が特に重要な場合には適していないことがあります。例えば、再現率を重視したい医療診断モデルなどでは、F1スコアだけでは不十分な場合があります。
例えで理解するF1スコアのメリットとデメリット
F1スコアのメリットとデメリットを「オールラウンドプレイヤー」と例えるとわかりやすいです。F1スコアは、バランスの取れた選手(適合率と再現率)を評価しますが、特定の能力が求められる場面(適合率や再現率のどちらかが重要な状況)では、その評価が物足りないことがあります。
適合率と再現率のトレードオフ
適合率と再現率は、しばしばトレードオフの関係にあります。再現率を高めるためには、予測をより広範囲に行う必要があり、その結果、偽陽性(FP)が増えて適合率が低下することがあります。一方、適合率を高めるためには、予測を厳しく行い、正解率が高いものだけを選別することが求められますが、その結果、再現率が低下する可能性があります。
F1スコアは、このトレードオフのバランスを評価するために役立ちます。適合率と再現率がどちらも一定水準以上でなければ、F1スコアは高くなりません。そのため、両方の側面を考慮する必要があるタスクにおいて、非常に有効な評価指標です。
まとめ
今回は、機械学習モデルの性能評価指標の一つであるF1スコアについて解説しました。F1スコアは、適合率と再現率のバランスを評価するための指標であり、特にデータの不均衡がある場合に重要です。適合率や再現率を個別に評価するのではなく、両者を調和平均して総合的に評価するため、モデルのパフォーマンスをバランス良く判断できます。
次回予告
次回は、ROC曲線とAUCについて解説します。ROC曲線は、二値分類モデルの性能を視覚的に評価するためのツールで、AUCはその下の面積を示す指標です。次回もお楽しみに!
注釈
- F1スコア: 適合率と再現率の調和平均を取った評価指標。バランス良くモデルの性能を評価できる。
- 適合率(Precision): モデルが予測した正解の中で、実際に正解であった割合。
- 再現率(Recall): 実
際の正解データの中で、モデルが正しく予測した割合。
- 調和平均: 複数の数値の逆数の平均を逆数にしたもの。F1スコアで適合率と再現率をバランス良く評価するために使われる。
- 偽陰性(False Negative, FN): 実際には正解であるのに、誤って不正解と予測されたデータ。
コメント