LightGBMの理論のまとめ

論文メモ機械学習 GBDT

今更ながらLightGBMの論文を読んだのでその時のメモを残しておきます。 ※GPUでの計算への適応など、計算機での活用に関する技術については省略しています。要約 LightGBMが使う既存の技術 pre-pruning early stopping問題 best-first (leaf-wise) tree hist…

2020-11-09

scikit-learn Pipelineの基本の使い方

Python scikit-learn 機械学習

個人的に業務ではよく使うのでもっと多くの人に認知されてほしいという想いを込めてメモ Pipelineとは scikit-learnにはPipelineというclassがある。これは複数の前処理用クラスと予測モデルをまとめて一つのオブジェクトにすることができるもの。例えば、S…

2020-09-28

LightGBMにおける欠損値の扱い

GBDT 機械学習

Githubでの議論などを見てわかったことをメモしておきます。前提学習時の欠損値の取り扱い numerical featureの欠損値 categorical featureの欠損値予測時の欠損値の取り扱い numerical featureの欠損値 categorical featureの欠損値まとめると考察ゼ…

2020-04-29

なぜバギングは予測誤差を減らすのか

機械学習バイアス－バリアンス分解

機械学習の分野では、バギング（bagging）というアンサンブル学習の方法があります。なぜバギングは予測誤差を下げるのか？という点について少し学んだのでメモしておきます。 ※記事全文はGithubに載せています 2日ほどはてなブログでの数式の記述（はてなT…

2020-04-27

予測誤差のバイアス－バリアンス分解の導出

バイアス－バリアンス分解機械学習

予測誤差や推定量の推定の誤差は、バイアス（bias）とバリアンス（variance）という2つの構成要因に分けることができます。分けることで、誤差を削減する方法について議論しやすくなります。推定量のバイアスーバリアンス分解については以前の記事で書いた…

2020-02-25

機械学習モデルを動かすWeb APIを作ってみる(4)：chaliceでLambdaにデプロイ

Python Webアプリエンジニアリング機械学習

今回はchaliceを使ってAWS Lambda + API Gatewayでデプロイする方法についてメモしておきます。

2020-02-17

機械学習モデルを動かすWeb APIを作ってみる(3)：Herokuにデプロイ

Webアプリエンジニアリング機械学習 Python

前回，前々回とでAPI部分をつくってきました。機械学習モデルを動かすWeb APIを作ってみる(1)：APIの作成 - 盆暗の学習記録機械学習モデルを動かすWeb APIを作ってみる(2)：uWSGIの設定 - 盆暗の学習記録今回からはAPIのデプロイ（Web上への展開）につい…

2020-02-12

機械学習モデルを動かすWeb APIを作ってみる(2)：uWSGIの設定

Webアプリ機械学習 Python エンジニアリング

前回 nigimitama.hatenablog.jp に引き続き，機械学習モデルを動かすAPIを作っていきます。今回はアプリを動かすサーバ部分を設定します。アプリケーションサーバの必要性インストール起動テスト設定をファイルに記述する起動リロードと停止 GitHubリ…

2020-02-10

機械学習モデルを動かすWeb APIを作ってみる(1)：APIの作成

Webアプリ機械学習 Python データの取得エンジニアリング

PythonでAPIを作る方法をメモしておくことにします。

2019-12-09

どの程度sparseだと疎行列ライブラリで計算が速くなるのか

Python 計算機科学機械学習

どの程度sparseだと疎行列ライブラリで計算が速くなるのか。気になったので試してみました。

2019-11-07

スパースなデータをXGBoost.DMatrixに入れるときはpd.DataFrame/np.arrayを使ってはいけない

機械学習 GBDT Python

XGBoostにはDMatrixという独自のデータ保持用クラスがあります。Documentの説明では optimized for both memory efficiency and training speed と書いてあり、私は「自動で疎行列クラスとかにしてくれるんだろうなぁ」と思っていたのですが、そうでもない様…

2019-11-06

XGBoostで自作の目的関数を使う

Python 機械学習 GBDT

XGBoostの素敵なポイントの一つは、自分で定義した関数を目的関数に使うことができる点です。でもどういう関数にしたらよいのかがわからなくて過去に戸惑ったことがあるのでメモしておきます。（詳しいやり方はXGBoostのdocumentationに書いてあります）定…

2019-11-05

データ分析時のメモリ使用量を減らす方法

Python R 機械学習

最近少し覚えたことをまとめます。（基本的にpythonのコードと共に述べていきますが、Rの場合についても少し触れていきます。）不要なオブジェクトの削除 del 手動でのガベージコレクションは不要 Rの場合データ型の最適化自動で型変換するコード疎行列…

2018-09-30

［Python］予測モデル作成の一連の流れのメモ

Python scikit-learn 機械学習

Pythonで予測モデルを作るときの大まかな流れの雛形みたいなやつ（自己流なので正しいかはわかりませんが…）をメモしていきます。 1. データの読み込みと確認データの確認データ間の関係を確認データの可視化（単変量）データの可視化（多変量）相関行…

2018-09-28

scikit-learnメモ：サンプルデータセットの読み込み方

機械学習 Python scikit-learn

機械学習を使うための処理の書き方を勉強する上でお世話になるのがサンプルデータセットですが， scikit-learnはRとは読み込み方が異なって面倒くさかったため，メモしておきます。 iris データセット定番のirisデータを例にしてみます。 Rだとdata(iris)あ…

2018-03-21

松尾研究室の無料公開コンテンツがすごい

機械学習学習リソース

私のスマホにはニュースアプリが複数入っているのですが，その複数のアプリで最近ハイライトされていたニュースが「松尾研講座の演習問題を無料公開」という話でした。 AIブームのために世間からの注目がそれだけ強いのか，それともニュースアプリが私向け…

2018-02-27

データサイエンス（統計学・機械学習）を鳥瞰する

統計学機械学習

データサイエンス（ここでは統計学と機械学習をまとめてこう呼ぶことにします）をざっくりと眺めることを考えてみます。鳥瞰の仕方（分類の仕方）を考える鳥瞰する（分類して，ざっくり解説していく）の流れになります。本題は2.のほうです。 1. まず分類…