【0から学ぶAI】第155回:再現率(Recall)

目次

前回の振り返り:適合率(Precision)

前回の記事では、適合率(Precision)について解説しました。適合率は、モデルが「正解だ」と予測したデータの中で、実際に正解だったデータの割合を示す指標です。特に、誤って正解だと予測してしまう偽陽性(False Positive, FP)を減らしたい場面で重要です。適合率の高いモデルは、予測結果の信頼性が高いというメリットがありますが、正解データを見逃してしまうこともあります。

そこで、今回はもう一つの重要な指標である再現率(Recall)について解説します。再現率は、実際の正解データをどれだけモデルが正しく予測できたかを評価する指標です。

再現率(Recall)とは?

再現率(Recall)は、実際に正解だったデータの中で、モデルが正しく予測できた割合を示す指標です。これは、モデルが「見逃さずに」正解を予測できるかどうかを測るものであり、特に偽陰性(False Negative, FN)を減らしたい場合に重要な指標です。

再現率の計算式は次のようになります。

[
\text{再現率} = \frac{\text{真陽性(True Positive, TP)}}{\text{真陽性(TP)} + \text{偽陰性(False Negative, FN)}}
]

例えで理解する再現率

再現率を「泥棒を捕まえる警察」と例えるとわかりやすいです。警察が再現率を高めようとするなら、街の中の泥棒をできるだけ見逃さずに捕まえようとします。この場合、警察はすべての泥棒を検挙したいので、多少の誤認逮捕が発生しても多くの泥棒を捕まえることが目的になります。再現率が高ければ、高い確率で「正解データ」(泥棒)を捕まえることができるという意味です。

再現率の計算例

再現率をより具体的に理解するために、以下の例を見てみましょう。

例:がん診断モデル

がんの早期診断を行うモデルを作成したとします。このモデルが、100人の患者のうち、実際にがんだった30人のうち25人を「がん」と診断し、5人を「がんではない」と誤診しました。

この場合、再現率は次のように計算されます。

  • 真陽性(TP): 実際にがんであり、正しく「がん」と診断された患者 = 25人
  • 偽陰性(FN): 実際にがんであったが、「がんではない」と誤診された患者 = 5人

[
\text{再現率} = \frac{25}{25 + 5} = 0.83
]

この診断モデルの再現率は83%です。つまり、実際にがん患者だった人のうち83%は正しく診断されたことを意味します。再現率が高いことは、見逃しが少なく、多くの正解データをしっかりと捉えられていることを示しています。

再現率が重要な場面

再現率が特に重要になるのは、偽陰性(FN)が大きな影響を及ぼす場面です。たとえば、医療の診断や異常検知システムにおいては、問題があるデータを見逃すこと(偽陰性)は非常にリスクが高いため、再現率が重要な指標となります。

適合率との関係

再現率は、適合率(Precision)と並んで、モデルの性能を評価する際に用いられる重要な指標です。適合率は「正しく予測したものの中でどれだけ正解だったか」を評価しますが、再現率は「実際の正解データのうちどれだけ正しく予測できたか」を評価します。これらは、モデルの評価においてバランスを取る必要があることが多く、適合率と再現率のどちらか一方が高いと、もう一方が低くなることがあります。

例えで理解する適合率と再現率のトレードオフ

適合率と再現率のトレードオフを「安全なセキュリティチェック」と例えることができます。セキュリティチェックが厳しすぎると(再現率を重視)、無実の人まで止められてしまいます(適合率が低い)。一方、チェックを緩めると(適合率を重視)、危険な人を見逃すリスク(再現率が低い)が増えるという関係性です。

再現率と他の指標のバランス

再現率は単独で使用することもありますが、多くの場合、適合率と組み合わせて評価されます。適合率と再現率のバランスを測るためには、次回解説するF1スコアを利用します。F1スコアは、適合率と再現率の調和平均を取ることで、両者のバランスを取った評価指標です。

適合率と再現率のバランスの例

例えば、異常検知システムにおいて再現率を重視する場合、できるだけ異常を見逃さないようにすることが重要ですが、適合率が低くなると、異常でないデータも誤って「異常」と判断してしまう可能性があります。逆に、適合率を重視すると、異常でないデータを正しく「正常」と判断できるが、実際の異常データを見逃すリスクが高まります。このように、適合率と再現率のバランスを取ることが、モデルの効果的な評価に繋がります。

再現率の応用

再現率は、医療診断、異常検知、セキュリティ、スパムメール検知など、正解データを見逃すことが許されないタスクにおいて重要な指標です。再現率が高いモデルは、実際に問題のあるデータを見逃さないため、特にリスク管理や安全性が重視される領域で評価されています。

まとめ

今回は、機械学習モデルの評価指標の一つである再現率(Recall)について解説しました。再現率は、実際に正解だったデータをどれだけ正確に予測できたかを示す指標であり、特に見逃しを防ぎたい場合に重要な評価指標です。適合率と再現率のバランスを考慮しながら、モデルの評価を行うことが必要です。


次回予告

次回は、F1スコアについて解説します。F1スコアは、適合率と再現率のバランスを取った評価指標で、両者の調和平均を用いてモデルの性能を評価します。次回もお楽しみに!


注釈

  1. 真陽性(True Positive, TP): 正しく予測された正解データ。
  2. 偽陰性(False Negative, FN): 実際に正解であるにも関わらず、誤って不正解と予測されたデータ。
  3. 適合率(Precision): モデルが予測した正解の中で、実際に正解であった割合。
  4. 再現率(Recall): 実際の正解データの中で、モデルが正しく予測した割合。
  5. F1スコア: 適合率と再現率の調和平均を取った評価指標。
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

株式会社PROMPTは生成AIに関する様々な情報を発信しています。
記事にしてほしいテーマや調べてほしいテーマがあればお問合せフォームからご連絡ください。
---
PROMPT Inc. provides a variety of information related to generative AI.
If there is a topic you would like us to write an article about or research, please contact us using the inquiry form.

コメント

コメントする

目次