RとPythonでVIFが一致しない件、Pythonにてadd_constant(定数列を追加)で一致

2022-09-06 問題 重回帰分析を行う際、多重共線性(multi-colinearlity; マルチコ)の確認のためにVIFを算出しようとした際、RとPythonでVIFが一致しなくて困った。 ※なお、Rはcar::vif、Pythonはstatsmodels.stats.outliers_influence.variance_inflation_f…

VS Codeのインデント折りたたみ(フォールド)で改行まで折りたたまれてしまう場合

<2021-10-14 作成> VS Codeのインデント折りたたみ(フォールド)で改行まで折りたたまれてしまって困ったのでメモ。 ※VS Code 1.60.2 時点で確認 拡張子によってフォールドの挙動が変わる模様。 .txtファイルだと改行は折りたたまれない。 ファイル名に拡張…

「対戦ゲームデータ分析甲子園」(ProbSpace)で24位(上位8.3%)に入りました

2020-10-21-公開 ProbSpace開催のデータ分析コンペ「対戦ゲームデータ分析甲子園」に参加し、24位に入りました。 prob.space 対戦ゲームと言っていますが、Nintendo Switch のSplatoon2の勝敗を対戦開始時点で予測する、という課題です。 ちょうどSplatoon2…

CS論文輪読会 (On textual analysis and machine learning for cyberstalking detection)

2020-02-08-公開 友人のkangetsu121さん (@kangetsu_121) と始めた論文輪読会。 第2回目となる今回は私の担当でした(第1回目はkangetsu121さん担当)。 ということで紹介した論文。 On textual analysis and machine learning for cyberstalking detection.…

機械学習がサイバーセキュリティにどのように活かされるのか(論文リスト)

2020-02-08-公開 機械学習がサイバーセキュリティにどのように活かされるのか、最近の論文を軽くサーベイした結果(途中)を記載しています。 最近、友人のkangetsu121さん (@kangetsu_121) と「論文を読む習慣を復活させよう」というモチベーションのもと、…

LINE DEV DAY 2019 DAY-1 データサイエンス・機械学習のセッションメモ

2019-11-21-公開 2019-11-20 (水) にグランドニッコー東京 台場で開催された「LINE DEV DAY 2019」のDAY-1に参加してきた。ホテル、豪華だった! linedevday.linecorp.com 満員電車に乗りたくなさすぎてkeynoteは諦めましたが、行ってきます。LINE DEVELOPER…

機械学習における多重共線性(マルチコ)と多重共線性のメカニズムについてのリンク先メモ

2019-10-28-公開 機械学習における多重共線性(マルチコ)について調べた際、参考にさせていただいた記事をメモしておきます。 ただのメモですので、より詳細な説明等はリンク先の記事を御覧ください。 機械学習における多重共線性 心理統計学の分野では、重…

AWS EC2インスタンスにローカルのファイルをセキュアにアップロード(scp使用・ポート指定)

AWS

2019-10-21 公開 AWS EC2インスタンスにローカルのファイルをアップロードしたいとき、Git Bashでscpを使ってセキュアにアップするという方法がある*1。 しかし、アクセスできるインスタンスのポート番号が指定されていたので、spcコマンド内でのポートの指…

AWS入門時に参考にした記事(概要・コマンドラインからの実行・Jupyter Notebookの使用)

2019-10-15 公開 遅ればせながらAWS(Amazon Web Services)を触り始めたので、その際に参考にさせていただいた記事やドキュメントをメモしておく。 データ分析に使用するので、ひとまずの目的は以下の4つ。 概要・全体像把握 インスタンス立ち上げ・GPUを用い…

UnderSamplingで抽出したデータ以外の(使用しなかったindexの)データを取得

2019-10-04 公開 機械学習を行う際、正例(y = 1)と負例(y = 0)との割合が極端に偏っているケースがある。 割合が偏っていると、データの多い方を優先して予測してしまうことが多く、予測結果がすべてy = 0なんてことも。悲惨である。 そういう場合 多すぎる…

優先度付きキューと貪欲法(AtCoder Beginner Contest 137 D問題復習)

2019-08-13 公開 / 2019-09-08 更新 方針は立ったものの実装ができず、悔しい想いをしたAtCoder Beginner Contest 137(ABC137)のD問題。 「優先度付きキュー(priority queue)」という便利なデータ構造について知ったのでメモ。 「貪欲法」という考え方の理解…

統計検定1級に向けて

2019-07-21 公開 / 2020-06-26 更新 発達心理学やアルバイト、フリーランスのお仕事でデータ分析をやっていた関係で、2012年ごろから2020年までかれこれ6年ほど統計分析に関わってきた(ブランクあるので-2年)。 データ分析、これからも重要そうなので改め…

ネットワークスペシャリスト試験に向けて

2019-07-20 公開 / 2019-12-23 修正 2019年4月の応用情報技術者試験 (AP) に合格したため、次は2019年10月のネットワークスペシャリスト試験(ネスペ試験)を受ける。 ネスペ試験の基本情報から対策まで、自分用にまとめておく。 <2019-12-23 追記> ネットワ…

Pythonで横向きのツリー図(樹形図)を描写

2019-07-19 公開 / 2019-07-20 更新 階層的なデータを可視化する際、ツリー図(樹形図)をPythonで描きたいこともある。 そんなとき、graphvizを使うと便利。 今回はデモとして東京都の区市町村名をツリー図で描写してみる。 入力と出力 入力 出力 環境構築 …

Jupyter Notebook保存時にpyファイルも一緒に保存・更新できるとgitでの差分管理が楽

2019-07-19 公開 / 2019-07-30 更新 Jupyter好きなんだけどgitでの差分管理がつらい。 pyファイルを保存すれば差分が見られるようになるが、Jupyter Notebookのメニューからpyファイルを保存すると、いらない情報も一緒に保存されて差分管理の邪魔。 そんな…