統計・機械学習を使って課題を解決・評価する人
データサイエンティストといえば機械学習!という印象でしょうか。
これは個人的な考えなのですが、単にデータサイエンティストとして職を得ることに関して言えば、機械学習よりも統計の知識の方が重要だと思います。
(もちろん機械学習の知識ゼロでは難しいでしょうが。)
いま、簡単な機械学習はライブラリを使えば誰でも組めます。
もちろん、Kaggleで競われるような高精度を出すスキルを得るのは相当な努力が必要ですが、単に職を得るだけならそのスキルは必要ありません。
(給料を上げたいとか、有名企業に入りたい方は習得をオススメします!)
多くのデータサイエンティストが現場で求められる機械学習スキルは、時間と手間を書けて100点を出す事ではなく、素早く80点を出すことです。
(データサイエンティストでなくても同じですね)
なので、
- モデル設計ができる
- 基本的な機械学習モデルが使える(※)
- 簡単なパラメータ・特徴量チューニングができる(※)
- 結果の評価ができる
といったスキルがあれば、業務で困ることはありません。
米印で示した部分は、Pythonであればライブラリでほとんど賄えます。つまり、機械学習スキルのほとんどは、特定のライブラリを使えるスキルです。
(モデルのパラメータ理解などは学習が必要ですが。)
残りの部分は、モデル設計と統計のスキルになります。
モデル設計に関しては実際にやったことがないと難しいので、一度自分でやってみることをオススメします。
結果の評価に関しても、基本的なものはライブラリで実装されていて、理論を知らなくても使えてしまいます。
一方で、単なるAccuracyやAUC_ROC、検定の結果を見るだけでは不足する場面が必ずあります。
例えば、良い評価値が得られなかった場面です。
単純に「良い結果が得られませんでした」ではクライアントは納得できませんね。
そういった際、良い結果が得られなかった理由を考察し、追加の分析を実施することが重要です。
それにより、
①基礎的な分析では出てこなかった効果が見える
②良い結果が得られなかった理由を細分化し、次の施策に繋げられる
などの効果が期待できます。
ここの分析力がデータサイエンティストの肝です。
ヒアリングで得たビジネス知識と自分の持っている分析スキルを組み合わせて、ビジネス的に妥当な分析アイディアを出すことができれば、クライアントからの信頼は一層厚くなるでしょう。
最後に
いかがでしたでしょうか?
今回は課題解決に必要なスキルについて簡単にまとめました。
機械学習や統計、また良い分析設計のためには論理的思考も必要になります。
次回は分析結果を伝えることについて考えを書いていきたいと思います!