盆暗の学習記録

データサイエンス ,エンジニアリング,ビジネスについて日々学んだことの備忘録としていく予定です。初心者であり独学なので内容には誤りが含まれる可能性が大いにあります。

R

[R]summarytoolsパッケージがデータをざっくり見るのに便利そう

タイトル通りです。なんか便利そうなの見つけたので何ができるか簡単にメモしておきます メソッド紹介 {summarytools}はRにおいてデータの要約統計量や分布などを簡単に一覧で見られるメソッドたちを提供するパッケージです。 freq() 度数分布表を出してくれ…

データ分析時のメモリ使用量を減らす方法

最近少し覚えたことをまとめます。 (基本的にpythonのコードと共に述べていきますが、Rの場合についても少し触れていきます。) 不要なオブジェクトの削除 del 手動でのガベージコレクションは不要 Rの場合 データ型の最適化 自動で型変換するコード 疎行列…

[R]R markdownでコードからmarkdownを書く

R

よくR markdownを使っているのですが, 変数に格納した文字列を見出しに使う forループを使って複数の節や小見出しを作る といったコードからmarkdownを書くという操作がしたくなるときが時折あります。 ちょっと調べてみたのでメモ。 文字 見出し 文章 グラ…

[R]ゼロから作る最尤法・ロジスティック回帰

(function () { var script = document.createElement("script"); script.type = "text/javascript"; script.src = "https://mathjax.rstudio.com/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML"; document.getElementsByTagName("head")[0].appendChild(…

[R]ゼロから作る最小二乗法2:重回帰

「自分で数式をコードに落としていって動かす」という作業は非常に勉強になると思ったので,いろんなアルゴリズムをゼロから作っていきたいと思います。 理論の要点を整理してから実装する構成で述べていきます。 モデル 線形回帰(linear regression)は,…

[R]ゼロから作る最小二乗法1:単回帰

(function () { var script = document.createElement("script"); script.type = "text/javascript"; script.src = "https://mathjax.rstudio.com/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML"; document.getElementsByTagName("head")[0].appendChild(…

[R]交差項や2乗項を作る

R

どうやるのかちょっと悩んだのでメモ。 交差項 切片を除く もっと多数の場合 留意点 2乗項 交差項 交差項等を作りたいときはmodel.matrix()を使うといいようです。 object引数にformulaを指定して,変数名を*でかけ合わせて交差項を作ります。 library(tidy…

[R]BBCニュースで使われるグラフを描く{bbplot}パッケージ

BBCニュースで使われるグラフのスタイルを再現する{bbplot}というパッケージの存在を知りました github.com ちょっと使ってみたいと思います。 インストールと実行 Windowsだと警告がでる 折れ線グラフ 棒グラフ まとめ 参考 インストールと実行 ggplotのテ…

[R]{stargazer}でロバスト標準誤差を使用した分析結果を載せる

R

問題 解決策 例(2つの回帰モデルの場合) 参考 問題 Rでロバスト標準誤差を使うときはsandwich::vcovHC()でロバスト標準誤差の分散共分散行列を算出し,lmtest::coeftest()を使ってRの標準的な結果表示のスタイルに似せた結果表示をする,というのが基本的…

[R]データ型の一括変換

R

csvファイルはreadr::read_csv()を使えば適切な型を考えて読み込んでくれますが,Stataの.dtaをhaven::read_dta()で読み込んだ場合などは,データ型が適切なものになっていない場合があります。 library(tidyverse) library(haven) # データの読み込み df <-…

[R]R MarkdownをPDFにして論文を書くときのテンプレート

R

昨年は卒論の執筆を先延ばしにしてきた1年で,2019年になってから急いで書き上げて1月7日に提出期限ギリギリに提出することになりました… そんなときに本当に助かったのがRmarkdownからpdfでknitする機能です。 Rで出力した図表をwordに手動で貼り付けたりし…

[R]Webサイトをスクレイピングしてxlsxをダウンロードする

R

Rでスクレイピングするときの基本的な手順 Rでネット上のデータをダウンロードするときの方法 についてメモ。 やりたいこと ①{rvest}によるスクレイピング 1. htmlの読み込み 2. 目的のタグ・URLを抽出 div要素を抽出 a要素を抽出 URLを抽出 リンクテキスト…

Rのround()は四捨五入をするわけではない

round関数の意味を誤解したまま使っていて面倒なことになったのでメモ。 round()は四捨五入をするわけではない 偶数への最近接丸め 言い換えると round()は厳密に偶数丸めをするわけではない 偶数丸めのアルゴリズムから予想される結果と数値計算の結果との…

RでGIS:日本の地理空間情報を取得する方法まとめ

GIS R

日本の地理空間情報を取得する方法をまとめました。R向けです。 1. Webサイトから手動でダウンロードする 国土数値情報ダウンロードサービス e-stat 統計GIS Global Administrative Areas 全国市区町村界データ | ESRIジャパン 2. パッケージやAPIを使ってダ…

[R]Rでパネルデータ分析:固定効果モデル

固定効果モデルの基礎的な理論と,Rでの実行方法の基本について学んだのでメモ。 理論 パネルデータ 固定効果モデル 固有効果,固定効果,変量効果 one-way固定効果モデル 主体の固定効果モデル(within model)の推定方法 1. 差分モデル(first difference …

統計検定2級レベルまでの教材と勉強方法

最近私の周りで統計検定を受験しようとしている人を見かけるので, 統計検定2級レベルの教材 私が統計検定2級を取得したときに参照していた本,やっていた勉強 についてメモしてみたいとおもいます。 1. 統計検定2級レベルの教材 ネット上の資料 統計学の…

[R]パッケージのインストールがうまくいかなくなった際の解決法(Windows)

R

環境 Windows 10 R 3.5.1 RStudio 1.1.456 問題 Rを3.5系にし,ついでにRStudioも更新したらパッケージのインストールができなくなった。 これまで(3.4系+昔のRStudio)は,パッケージのインストール時にはRStudioが自動的に F:/マイドキュメント/R/win-li…

Rで小地域データの塗り分け地図を描く

R GIS

小地域(町字レベルの細かい地域区分のデータ)のシェープファイル(.shp)を使用してコロプレス図(塗り分け地図)を描く方法のメモ。 1. データの取得 2. データの読み込みとデータの確認 3. 塗り分け地図の作図 地図作成の準備 地図のプロット 地図の装飾…

Rとe-statAPIで在庫循環図

「公的統計の読み方」をテーマにした一般教養科目を履修したところ, 景気判断の指標の一つである在庫循環図を書く機会があったのでメモします。 在庫循環図とは 縦軸に鉱工業指数の在庫指数の前年比を、横軸に同生産指数の前年比をプロットしたもの 通常,…