モーメント法と最尤推定法の関連性についてメモ

統計学計量経済学

メモしようとしたんですがはてなブログは単純な数式しかサポートしてなくて書けなかったのでzennに書きました。 zenn.dev ざっくり導入だけ書くと、難波明生『計量経済学講義』にて、最尤推定量は， (7.7)式を直交条件として用いたGMM推定量であると考える…

2024-04-20

React+TypeScript+ViteでChrome拡張機能を作るときの構成

エンジニアリング

React + TypeScript + ViteでGoogle Chrome拡張機能を作る方法をメモしておきます。なお、以下の環境下での話になります。 // 環境 "vite": "^5.2.0", "typescript": "^5.2.2" TypeScriptでプロジェクトを作る @types/chromeを入れる manifest.jsonを追加す…

2024-04-11

Linux OSの起動時にプログラムを自動実行する

最近よく使うので簡単にメモします。私の環境 Ubuntu 20.04（WSL）手順 /etc に rc.local というファイルを作成する sudo vim /etc/rc.local rc.local の中身はシェルスクリプトで、ここに実行したいプログラムを書く。（shebangも書かないとうまくいかな…

2024-03-21

pythonで数値微分するときはnumdifftoolsが便利そう

Python 数学

scipy.optimize.approx_fprime 先日、フィッシャー情報量を対数尤度の2次の導関数から計算してみようと思い、ChatGPTに「pythonで数値微分するコードの例を出して」と尋ねてみました。するとscipyの approx_fprime という関数が提案され、2次の導関数につい…

2024-03-03

書籍の情報を検索して参考文献のフォーマットで取得できるChrome拡張機能を作ってみた

個人開発

表題の通りのものを作りました Book Searcher もし同じニーズのある方がいらっしゃいましたらお使いください背景機能どうやって作っているのか書籍データ・検索システム参考文献のフォーマットへの整形名前のパースフロントエンド・UI 既知の問題そ…

#Chrome拡張機能

2024-02-18

seabornのkdeplotでhue引数を使うときはcommon_norm=Falseを検討しよう

データ可視化 Python

TL; DR seaborn.kdeplotでクラスごとに分布を描くとき、デフォルト引数のままだとクラスごとのサンプル数が違うと分布の大きさも違ってしまう kdeplotではデフォルトではcommon_norm=Trueになっており、全クラスの分布の面積の合計が1になるように分布が調整…

2024-01-29

Plotlyで地図上に散布図を描く

データ可視化 Python GIS

ドラッグしたりズームできるようなマップ上に散布図などを描きたいとき、FoliumだけでなくPlotlyも使えることを知ったのでメモしておきます。環境 python:3.11のDocker Imageの下で、以下のバージョンのライブラリで試しました。 jupyterlab==4.0.10 plotly…

2024-01-17

stliteを試してみる

Python エンジニアリング

Streamlitを静的サイトで動かせるstliteというライブラリがあるらしいです。 github.com 簡単に試してみたのでメモしておきます。 Streamlitとは StreamlitはPythonだけで簡単にWebアプリを作るライブラリです。よくある使い方としてはダッシュボードとして…

2023-10-06

［R］summarytoolsパッケージがデータをざっくり見るのに便利そう

R データ可視化

タイトル通りです。なんか便利そうなの見つけたので何ができるか簡単にメモしておきますメソッド紹介 {summarytools}はRにおいてデータの要約統計量や分布などを簡単に一覧で見られるメソッドたちを提供するパッケージです。 freq() 度数分布表を出してくれ…

2023-06-12

モニターの輝度を一括・自動で調整するアプリを作った

エンジニアリング PC・Windows Python ツール個人開発

①輝度を自動操作したい（朝は明るく、夜は暗くしたい）、②複数のモニターの輝度を一括で操作したい、という自分の要望を叶えるためのアプリを作りました

2023-04-24

順序尺度にピアソンの積率相関係数を使うと相関を過小評価するおそれがある

統計学

最近、因子分析を勉強しています。そのなかで順序尺度の相関係数という話題があったのでメモ。例順序尺度の相関係数カテゴリ数がいくつだったら積率相関係数を使っていいのかポリコリックポリシリアル参考文献例たとえば、こんなデータがあったとし…

2023-03-13

［Javascript］HTMLや画像をコピーさせる

エンジニアリング JavaScript

最近まで知らなかったのでメモ。テキストのコピーの場合そもそもコピーはどう実装するのか、文法の基礎を確認していきます。以前であればdocument.execCommand("copy")を使っていたのですが非推奨になったようです。今はnavigator.Clipboardを使うようで…

2023-03-04

Electron + TypeScript + React の環境構築手順のメモ

エンジニアリング

Web開発の知識をそのままデスクトップアプリ開発に使えるということで、Electronが面白そうだな～と思っています。 jsに慣れている方であれば環境構築に悩むことはなさそうですが、筆者はReactもElectronも初心者なので環境構築の手順をメモしておきます環…

2023-01-07

［OpenCV + tkinter］電子書籍の自作のための画像編集を行うアプリをPythonで作る

画像処理エンジニアリングツール個人開発

作業効率化のため、自分用に↑のようなアプリを作ってみました。背景画像の処理ロジック表紙の処理について表紙だけ処理を分ける理由表紙の判別ロジック文字の色を濃くする処理についてコードアプリ化背景私はとても狭い部屋に住んでいるため（＆…

2022-06-30

SHAP valuesの論文を読んだのでメモする

Lundberg, S. M., & Lee, S. I. (2017). A unified approach to interpreting model predictions. Advances in neural information processing systems, 30. 2017年の論文なので今更ですが読んだのでメモします。沢山の内容を10ページに詰め込んだような全…

2022-03-05

CSVとFeather, Parquetを比較してみる

最近Parquetというファイルフォーマットを知りました。S3にデータを置いてDWHを作ったりする際などに使うようです。 pyarrowパッケージをインストールしていればpandasからFeatherやParquetにお手軽に保存できることに気づいたので試してみてCSVと比較してみ…

2022-02-11

note.comを読みやすくするChrome拡張機能を作った

ツール個人開発

皆さんはnote.comを使っていますか？最近は利用者がどんどん増えていて記事数も多いため、なにか興味深い記事を見かけた際にアクセスする機会も増えているのではないでしょうか。少なくとも私はそうです。 noteはいいサービスだなと思う一方で、記事を読み…

2021-12-27

「150 successful machine learning models: 6 lessons learned at booking. com」を読んだ

KDD19で発表されて一時期話題になっていたBernardi et al. (2019) 150 Successful Machine Learning Models: 6 Lessons Learned at Booking.comを読みました。これは宿泊施設を検索して予約できるウェブサイト「Booking.com」における機械学習の活用事例と…

2021-12-26

『データ分析と意思決定理論』を読んだ

読書メモ計量経済学統計的因果推論

『データ分析と意思決定理論』を読みました。マンスキーデータ分析と意思決定理論作者:チャールズ・マンスキーダイヤモンド社Amazon この本は経済学者が書いた一般向け（非専門家向け）の本で、第1部がデータ分析、第2部が意思決定理論という構成になって…

2021-05-29

NGBoostの理論のまとめ

NGBoost: Natural Gradient Boosting for Probabilistic Predictionの論文を読んだのでメモしておきます。ざっくり要約すると以下のような感じでした。 NGBoostは予測を点ではなく分布で予測するための機械学習アルゴリズム勾配ブースティングの枠組みで最…

2021-03-31

pystanの環境構築で詰まったときのメモ

環境構築

変なつまり方をしたのでメモまとめ dockerのpython:3.9をベースイメージに環境を作ろうとしていたが、動かなくて困っていた pystan 3.0 は gcc ≥ 9.0 が必要であるにも関わらず、python:3.9のイメージに入っているgccはver.8系だったのが原因と思われる ubu…

2021-01-27

［python］loggerの出力が重複するのを防ぐ

Python エンジニアリング

pythonのloggingを使うときのメモ背景 loggerインスタンスにStreamHandlerやFileHandlerを設定する処理は使いまわしたいので、関数にしたい。その際、単純にその処理を関数にまとめると、その関数が複数回呼ばれて同じ名前のloggerが複数回参照された場合…

2021-01-16

LightGBMの理論のまとめ

論文メモ機械学習 GBDT

今更ながらLightGBMの論文を読んだのでその時のメモを残しておきます。 ※GPUでの計算への適応など、計算機での活用に関する技術については省略しています。要約 LightGBMが使う既存の技術 pre-pruning early stopping問題 best-first (leaf-wise) tree hist…

2021-01-05

LightGBMの「No further splits with positive gain」というwarningの意味

LightGBM関連の論文やソースコードを読んでいてわかったことをメモ概要 LightGBMを使っているとたまに No further splits with positive gain, best gain: -inf のようなwarningが表示されることがある。これはLightGBMが内部で決定木を成長させている際に…

2020-11-09

scikit-learn Pipelineの基本の使い方

Python scikit-learn 機械学習

個人的に業務ではよく使うのでもっと多くの人に認知されてほしいという想いを込めてメモ Pipelineとは scikit-learnにはPipelineというclassがある。これは複数の前処理用クラスと予測モデルをまとめて一つのオブジェクトにすることができるもの。例えば、S…

2020-10-25

データの前処理で並列処理を使う

Python

pythonのmultiprocessingパッケージについてのメモ。 docs.python.org コード例 ProcessクラスとPipeクラスを使う場合 Poolクラスを使う場合なぜmultiprocessingなのかコード例こう書けば良いんじゃないかな、と思った実装例を載せていきます。以下では…

#Python #前処理

2020-10-06

unittestでかかった時間を計測する

Python

前にどこかで見かけたやり方をメモ。 unittestでは、各テストの前にはsetUp()が実行され、テストの後にtearDown()が実行される。なのでその前後でtime()を呼んで、その差分を表示させる。 from time import time import unittest class TestStringMethods(u…

2020-09-28

LightGBMにおける欠損値の扱い

GBDT 機械学習

Githubでの議論などを見てわかったことをメモしておきます。前提学習時の欠損値の取り扱い numerical featureの欠損値 categorical featureの欠損値予測時の欠損値の取り扱い numerical featureの欠損値 categorical featureの欠損値まとめると考察ゼ…

2020-09-12

FlaskとAjaxを使って非同期にサイトの表示を変える

エンジニアリング Webアプリ Python JavaScript

FlaskとjQueryとsqliteについて少し勉強したのでメモ。シンプルな例まず、シンプルに文字を書き換えるだけの場合について。バックエンド flaskでサーバー側の処理を書きます。ページを表示するための index() と、フロントエンドからのAjax通信に対して…

2020-04-29

なぜバギングは予測誤差を減らすのか

機械学習バイアス－バリアンス分解

機械学習の分野では、バギング（bagging）というアンサンブル学習の方法があります。なぜバギングは予測誤差を下げるのか？という点について少し学んだのでメモしておきます。 ※記事全文はGithubに載せています 2日ほどはてなブログでの数式の記述（はてなT…

盆暗の学習記録

データサイエンス，エンジニアリング，ビジネスについて日々学んだことの備忘録としていく予定です。初心者であり独学なので内容には誤りが含まれる可能性が大いにあります。