データサイエンティストを目指す人のブログ

データサイエンティストとして働いてます。日々の学びをまとめていく予定です。

目的を意識した精度指標

精度ってなんだ?

よくデータ分析をしていて話に出るのが「精度」です。
けど、「精度」ってなんでしょう??
真面目に考えると難しい。。。
小難しい本を読むと、回帰分析ではAICやら、MAPEやら決定係数やらいろいろ出てきます。

でも、仕事で使う上で個人的に一番大事なのは、「仕事で何をしたいのか?」から精度指標を決めることだと考えています。
下記は「お酒メーカー(サントリーやキリンなど)が、「ビール大好き」属性の人を集めて、今度新商品する新ビール商品のインタビューをしたい。そこで属性を予測するモデルを作りたい」という状況を仮定したときのものです。
シンプルに正しく予測された数を見ると、6人中4人なので66%の正答率となります。
しかし、今やりたいことは「ビール大好き」の人集めたいのです。そうなると、「ビール大好きと予測した人が、本当にビール大好きなのか」というのも非常に重要になってきます。
例えば「全体の正答率66%だけど、ビール大好きと予測したは全員ワイン大好きでした」では、話になりません。

そこで、ビール大好きと予測した人に絞って正答率を見てみると、4人中3人正解で75%となります。

f:id:naka-u:20200209002705p:plain
判別モデルでの予測


こんな具合に、「精度」といっても目的に合わせて、適切に設定することが非常に重要ですし、よく考えないと微妙にずれた指標を使ってしまう可能性があります。

(ちなみにこの例の場合、全員ビール大好きと予測すると、「全体」の正答率は6人中4人で66%、「ビール大好きと予測して本当にビール大好き」の正答率は100%となり、数値上は良いですが、その予測にはなんの意味もありません)

ストアカで講座はじめました

データ分析初心者向けに、ストアカというサービスを利用して「ざっくりわかるデータサイエンス」という講座を解説しました!
極力数式は使わず、「ざっくり」と理解することを目的とした初学者向けの講座です。
良ければぜひ受講ください!

www.street-academy.com