盆暗の学習記録

データサイエンスを中心として,日々学んだことの備忘録としていく予定です。初心者であり独学なので内容には誤りが含まれる可能性が大いにあります。

データサイエンス(統計学・機械学習)を鳥瞰する

データサイエンス(ここでは統計学機械学習をまとめてこう呼ぶことにする)について自分が理解するために,あるいは人に説明するために整理するとき,どういう風に体系化していくべきか,どういう切り口で分類していくかを模索している。

私の勉強メモが入ったフォルダがごちゃごちゃしてきたので,すっきりまとめる方法がないかを探しているという背景もある。 f:id:nigimitama:20180227173726p:plain

いまのところ,①ジャンルで整理していく方法,②その手法が果たす役割・目的で整理していく方法,の2つを考えている。

1. ジャンルで整理

統計学なら「記述統計」「推測統計」「多変量解析」「時系列分析」…などという分け方,機械学習なら「ニューラルネット系」「決定木系」などという分け方(この分け方はイマイチな気がするが),あるいは「教師あり」「教師なし」などという分け方

といった具合に教科書などを参考にジャンル分けしていく。

例えば図にする場合,私が過去に適当に作ったものだとこんな感じ f:id:nigimitama:20180227171602p:plain

このタイプのアプローチでは工藤(2013)がいい感じの表を作っていた。 f:id:nigimitama:20180227171347p:plain 表の形にすることで,ジャンルの分け方のレイヤー(「一般線形モデル」のような分類のしかたや「教師あり」のような分類の仕方)が複数とられており,また分析事例の列もあることで現実への応用のイメージを膨らませやすいので非常に情報が豊富になっている。

これからデータ分析を始めたい人のための本

これからデータ分析を始めたい人のための本

2. 機能・目的で整理

分析結果として何が得られるかで整理していくアプローチもあるかなと思う。

例えば「回帰」「分類」「異常検知」「クラスタリング」「次元削減」…といった具合に。これなら統計学の手法でも機械学習の手法でも統一して分類していくことができる。

杉山(2013)がこういう分類の仕方をとっている場面があって,わかりやすいと思った。

機能ごとに分けるのであればジャンルで整理するアプローチに比べて紹介していく項目数も減るため,同じ紙幅であったとしても図を載せる余裕が出やすく,視覚的に説明しやすいことも利点であると思う。

例えば「一般化線形モデル」と文字で説明されるよりも,「分類」の例として識別境界の図があれば,なんとなく読みやすくなるのかなと思う f:id:nigimitama:20180227172955p:plain

結論

やはり,どちらも一長一短あって結局どっちも必要ではある。

ジャンルで整理するやりかたを採るときは,工藤(2013)のように表の形にしてやるとよいかもしれない。細かな情報を載せやすいので,自分用に整理するなら基本的にこっちを使うべきかもしれない。

機能・目的で整理する方法は,より少ない項目数にまとめることができるので,人に説明するとき(データサイエンスに入門する人など事前知識の少ない人に説明する時)などはこの分け方が効果的かもしれない。