盆暗の学習記録

データサイエンスを中心として,日々学んだことの備忘録としていく予定です。初心者であり独学なので内容には誤りが含まれる可能性が大いにあります。

機械学習

スパースなデータをXGBoost.DMatrixに入れるときはpd.DataFrame/np.arrayを使ってはいけない

XGBoostにはDMatrixという独自のデータ保持用クラスがあります。Documentの説明では optimized for both memory efficiency and training speed と書いてあり、私は「自動で疎行列クラスとかにしてくれるんだろうなぁ」と思っていたのですが、そうでもない様…

XGBoostで自作の目的関数を使う

XGBoostの素敵なポイントの一つは、自分で定義した関数を目的関数に使うことができる点です。 でもどういう関数にしたらよいのかがわからなくて過去に戸惑ったことがあるのでメモしておきます。(詳しいやり方はXGBoostのdocumentationに書いてあります) 定…

データ分析時のメモリ使用量を減らす方法

最近少し覚えたことをまとめます。 (基本的にpythonのコードと共に述べていきますが、Rの場合についても少し触れていきます。) 不要なオブジェクトの削除 del 手動でのガベージコレクションは不要 Rの場合 データ型の最適化 自動で型変換するコード 疎行列…

[Python]予測モデル作成の一連の流れのメモ

Pythonで予測モデルを作るときの大まかな流れの雛形みたいなやつ(自己流なので正しいかはわかりませんが…)をメモしていきます。 1. データの読み込みと確認 データの確認 データ間の関係を確認 データの可視化(単変量) データの可視化(多変量) 相関行…

scikit-learnメモ:サンプルデータセットの読み込み方

機械学習を使うための処理の書き方を勉強する上でお世話になるのがサンプルデータセットですが, scikit-learnはRとは読み込み方が異なって面倒くさかったため,メモしておきます。 iris データセット 定番のirisデータを例にしてみます。 Rだとdata(iris)あ…

松尾研究室の無料公開コンテンツがすごい

私のスマホにはニュースアプリが複数入っているのですが,その複数のアプリで最近ハイライトされていたニュースが「松尾研 講座の演習問題を無料公開」という話でした。 AIブームのために世間からの注目がそれだけ強いのか,それともニュースアプリが私向け…

データサイエンス(統計学・機械学習)を鳥瞰する

データサイエンス(ここでは統計学と機械学習をまとめてこう呼ぶことにします)をざっくりと眺めることを考えてみます。 鳥瞰の仕方(分類の仕方)を考える 鳥瞰する(分類して,ざっくり解説していく) の流れになります。本題は2.のほうです。 1. まず分類…