盆暗の学習記録

データサイエンス ,エンジニアリング,ビジネスについて日々学んだことの備忘録としていく予定です。初心者であり独学なので内容には誤りが含まれる可能性が大いにあります。

統計検定2級レベルまでの教材と勉強方法

最近私の周りで統計検定を受験しようとしている人を見かけるので,

  1. 統計検定2級レベルの教材
  2. 私が統計検定2級を取得したときに参照していた本,やっていた勉強

についてメモしてみたいとおもいます。

1. 統計検定2級レベルの教材

ネット上の資料

統計学の時間|統計WEB

全人類がわかる統計学

DataArts

JIN'S PAGE

『とある弁当屋の統計技師』サポートサイト

書籍(簡単なもの=数式少なめの本)

石田基広(2013)『とある弁当屋の統計技師(データサイエンティスト)』

  • ラノベ調=対話篇なのでわかりやすい
  • 内容:記述統計,要約統計量,重回帰分析,ロジスティック回帰
  • Rでの実践方法も学ぶことができる

佐々木隆宏(2017)『流れるようにわかる統計学』,KADOKAWA

流れるようにわかる統計学

流れるようにわかる統計学

  • グラフの読み取り方から始める⇒記述統計の解説が丁寧
  • 図やイラストが多く,また対話篇で構成されており,わかりやすい
  • 内容:グラフの読み取り,要約統計量,確率論,最小二乗法,確率分布,検定

小島寛之(2006)『完全独習 統計学入門』,ダイヤモンド社

完全独習 統計学入門

完全独習 統計学入門

  • 数式をほとんど使わない統計学の入門書
  • 内容:要約統計量,標本分布,推定,検定

書籍(統計検定2級レベル)

栗原伸一(2011)『入門統計学』,オーム社

入門 統計学 −検定から多変量解析・実験計画法まで−

入門 統計学 −検定から多変量解析・実験計画法まで−

  • 文章量やや多めだが,丁寧に記述されている
    • 数式がダーっとでてくるような教科書が苦手な場合(私はそうでした)はこの本が合うかも
    • オーム社特有の?丁寧な図解が理解を助ける
  • この本は,特に標本抽出の話がわかりやすかった印象
    • 「入手したてんとう虫(サンプル)の平均体長から,既知の品種の体長の分布に属するか,別の分布に属する(=新種)かを調べる」といった具体的でわかりやすい例
  • 内容:記述統計,確率分布,標本分布,推定・検定,分散分析,実験計画法,多重比較法,判別分析・クラスター分析,ノンパラメトリック統計学
  • オーム社のWebサイトで『授業用教材(PowerPointファイル)』などが公開されています。このスライドを見て気に入ったら購入を検討されてもよいかもしれません。

本橋永至(2015)『Rで学ぶ統計データ分析』,オーム社

Rで学ぶ統計データ分析

Rで学ぶ統計データ分析

  • Rの入門としても統計の入門としても最適(オススメ)
  • 手を動かしながら(分析手順を実践しながら)理論を学ぶことができる
  • 文章,数式,図のバランスがよく,スッキリとまとめられた簡潔な説明
  • 内容:記述統計,確率分布,回帰分析,分散分析,最尤法,一般化線型モデル(GLM)

東京大学教養学部統計学教室(1991)『統計学入門』(通称:赤本)

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

  • 統計学の定番教科書。1991年発行だが,未だに強い人気がある。
  • “赤本”と呼ばれている。シリーズの1巻目であり,第2~3巻の”緑本”,“青本”もある。
  • ほどよい量の図表や文章での解説があり,数式とのバランスがいい。
    • でも数式に慣れていないうちはキツいかも

宮田庸一(2012)『統計学がよくわかる本』

統計学がよくわかる本―Excel解説付き

統計学がよくわかる本―Excel解説付き

南風原朝和(2002)『心理統計学の基礎』

心理統計学の基礎―統合的理解のために (有斐閣アルマ)

心理統計学の基礎―統合的理解のために (有斐閣アルマ)

  • 強い人気を誇る入門書
  • 内容は幅広いものの,広く浅くという感じ?
    • 個々のトピックの解説が簡潔すぎて人によってはわかりにくく感じるかも

日本統計学会編(2015)『統計学基礎』

改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎

改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎

  • 2級の公式教科書で,試験範囲が簡潔にまとめられている
    • その分,数式がズラーっとでてくる
  • 「わかりにくい」と不人気だが,ある程度統計学を理解してきた頃(赤本が読める頃)にはある程度は読めるようになってるはず

2. 私が統計検定2級を取得したときの勉強法

受験までにやったこと

だいたいこんな感じでした。

  • 序盤:石田『とある~』や栗原『入門統計学』を読み,概要を理解する
    • 数式の理解は不十分でもいいので「なんのために,なにをやるか」を理解する
  • 中盤:赤本や公式本を読む
  • 終盤:過去問で練習

ただ,このときはギリギリで受かった状態だったので,もっとモチベーションを高く持ってしっかり勉強すべきだったと反省しております…。

統計学を勉強するときのポイント

統計検定の受験以後に私が思うようになった「統計学を勉強するときのポイント」というのがあります。それは

  1. 複数の本を読む
  2. 理論と実践の両面で学ぶ
  3. モチベーションを上げるために発展的な分析手法を知る

というものです。

1. 複数の本を読む

統計学は範囲が広く,個々の分野も奥深いことに加え,数式が出てきて文系には理解し辛かったりするので,網羅的な一冊の本で全てを理解しようとするよりは,複数の本を読んで補完しながら学んでいく方法が良いのではないか,と思っています。

統計検定の範囲を網羅していると思われるのは公式テキストですが,公式テキストだけを見ても初学者にはわからない部分だらけだと思うので,もっと平易に書かれた本などと併せて勉強するのが良いのだろうと思います。

上でご紹介しましたネット上の資料や書籍を複数使って勉強していくことで効率よく学ぶことができるのかなと思います。

2. 理論と実践の両面で学ぶ

統計学の学習では,学んだ分析手法を実践することも重要です。

業務や研究で実際に分析するときは手計算するわけにはいきませんので,パソコンの統計分析ソフトの操作も学ぶことを強くおすすめします。

まずExcelに慣れ,その後はRを使えるようにしていくと良いと思います。

Rだと石田『とある~』や本橋『Rで学ぶ統計データ分析』がおすすめです。

統計分析ソフトに習熟すると,コンピュータ上でシミュレーションや試行錯誤ができるようになり,それが理論の理解を助けることもあります。例えば「データを対数変換すること」の意味は私のように数学が苦手な人にはピンときにくいものですが,実際にデータを用意して散布図を作りながら試してみるとわかってくると思います。

f:id:nigimitama:20181030015822p:plain

3. モチベーションを上げるために発展的な分析手法を知る

統計学の初歩を見ているだけだと,味気なくつまらないものに感じるかもしれません。

しかし,統計学は文系の分野から理系の分野まで幅広い領域で使われておりますし,ビジネスでも活用されている非常に実用的な学問ですので,統計学(or データ分析)で何ができるのか」を把握することに意識を向けてみることがモチベーションの向上につながると思います。

例えば…以下のような感じです。

「データ分析の種類」と呼ばれるものが4つ(大別して2つ)ほどあるのですが,「記述的・診断的な分析」になるほど統計学の活躍の機会が多くなり,「予測的・処方的な分析」になるほど機械学習の活躍の機会が多くなる感じです(ちなみに統計検定準1級以上になると機械学習も出題範囲に入ってきます)。

データ分析で何ができるのか:データ分析の種類

1. Descriptive Analytics(記述的分析):データから,「何が起きたのか」を明らかにする。

  • グラフや表で可視化する,データを解釈するストーリーを考えるなど。
  • →記述統計学(要約統計量などによるデータの要約,グラフや表による可視化)

2. Diagnostic Analytics(診断的分析):データから,「なぜ起きたのか」を明らかにする。

  • 記述統計学
    • 相関関係を調べるなどして,より深く調べていく。
  • 推測統計学(検定,回帰分析など)
    • データの間の関係性を正確に把握する
  • 統計的因果推論(ランダム化比較試験(A/Bテスト)など)
    • e.g. A/Bテストによる,Webサイトのデザインを変えることによるKPIの向上への影響(因果効果)の推定

3. Predictive Analytics(予測的分析):確率的な予測を行うモデルを構築する。

  • 統計モデリング(回帰分析など)
    • e.g. ロジスティック回帰分析による,広告のクリック率の予測と広告配信の最適化
  • 機械学習(いわゆる"AI",予測に特化したデータ分析の技法)
    • e.g. ディープラーニングで画像認識(「画像のデータ」を説明変数に,「何が写っているか」を被説明変数にして予測する)

4. Prescriptive Analytics(処方的分析):データから,「何をすべきか」を明らかにする。

  • 予測されたモデルから最適な方策を立案する。
    • e.g. 資料請求をしてくれた潜在顧客の成約率の予測値を出すことで,「成約しやすそうな顧客から優先的にセールスを投入する」という最適化
    • e.g. レコメンデーション:「この商品を購入した人は,この商品も購入しています」