盆暗の学習記録

データサイエンス ,エンジニアリング,ビジネスについて日々学んだことの備忘録としていく予定です。初心者であり独学なので内容には誤りが含まれる可能性が大いにあります。

2020-01-01から1年間の記事一覧

scikit-learn Pipelineの基本の使い方

個人的に業務ではよく使うのでもっと多くの人に認知されてほしいという想いを込めてメモ Pipelineとは scikit-learnにはPipelineというclassがある。これは複数の前処理用クラスと予測モデルをまとめて一つのオブジェクトにすることができるもの。 例えば、S…

データの前処理で並列処理を使う

pythonのmultiprocessingパッケージについてのメモ。 docs.python.org コード例 ProcessクラスとPipeクラスを使う場合 Poolクラスを使う場合 なぜmultiprocessingなのか コード例 こう書けば良いんじゃないかな、と思った実装例を載せていきます。 以下では…

unittestでかかった時間を計測する

前にどこかで見かけたやり方をメモ。 unittestでは、各テストの前にはsetUp()が実行され、テストの後にtearDown()が実行される。 なのでその前後でtime()を呼んで、その差分を表示させる。 from time import time import unittest class TestStringMethods(u…

LightGBMにおける欠損値の扱い

Githubでの議論などを見てわかったことをメモしておきます。 前提 学習時の欠損値の取り扱い numerical featureの欠損値 categorical featureの欠損値 予測時の欠損値の取り扱い numerical featureの欠損値 categorical featureの欠損値 まとめると 考察 ゼ…

FlaskとAjaxを使って非同期にサイトの表示を変える

FlaskとjQueryとsqliteについて少し勉強したのでメモ。 シンプルな例 まず、シンプルに文字を書き換えるだけの場合について。 バックエンド flaskでサーバー側の処理を書きます。 ページを表示するための index() と、フロントエンドからのAjax通信に対して…

なぜバギングは予測誤差を減らすのか

機械学習の分野では、バギング(bagging)というアンサンブル学習の方法があります。 なぜバギングは予測誤差を下げるのか?という点について少し学んだのでメモしておきます。 ※記事全文はGithubに載せています 2日ほどはてなブログでの数式の記述(はてなT…

予測誤差のバイアス-バリアンス分解の導出

予測誤差や推定量の推定の誤差は、バイアス(bias)とバリアンス(variance)という2つの構成要因に分けることができます。分けることで、誤差を削減する方法について議論しやすくなります。 推定量のバイアスーバリアンス分解については以前の記事で書いた…

機械学習モデルを動かすWeb APIを作ってみる(5):Lambdaにデプロイ

これまで,APIの作成からHerokuへのデプロイまでを扱ってきました。 今回はAWS Lambda + API Gatewayでのデプロイについてメモしておきます。 機械学習モデルを動かすWeb APIを作ってみる(1):APIの作成 - 盆暗の学習記録 機械学習モデルを動かすWeb APIを作…

機械学習モデルを動かすWeb APIを作ってみる(4):chaliceでLambdaにデプロイ

今回はchaliceを使ってAWS Lambda + API Gatewayでデプロイする方法についてメモしておきます。

機械学習モデルを動かすWeb APIを作ってみる(3):Herokuにデプロイ

前回,前々回とでAPI部分をつくってきました。 機械学習モデルを動かすWeb APIを作ってみる(1):APIの作成 - 盆暗の学習記録 機械学習モデルを動かすWeb APIを作ってみる(2):uWSGIの設定 - 盆暗の学習記録 今回からはAPIのデプロイ(Web上への展開)につい…

機械学習モデルを動かすWeb APIを作ってみる(2):uWSGIの設定

前回 nigimitama.hatenablog.jp に引き続き,機械学習モデルを動かすAPIを作っていきます。 今回はアプリを動かすサーバ部分を設定します。 アプリケーションサーバの必要性 インストール 起動テスト 設定をファイルに記述する 起動 リロードと停止 GitHubリ…

機械学習モデルを動かすWeb APIを作ってみる(1):APIの作成

PythonでAPIを作る方法をメモしておくことにします。

[Python]リストやデータフレームを任意の要素数で分割する

長さ(行数)Nのリスト(データフレーム)を要素数(行数)K個ずつに分割する…という処理についてのメモ