データ分析

機械学習や統計分析、データ分析

「対戦ゲームデータ分析甲子園」(ProbSpace)で24位(上位8.3%)に入りました

2020-10-21-公開 ProbSpace開催のデータ分析コンペ「対戦ゲームデータ分析甲子園」に参加し、24位に入りました。 prob.space 対戦ゲームと言っていますが、Nintendo Switch のSplatoon2の勝敗を対戦開始時点で予測する、という課題です。 ちょうどSplatoon2…

CS論文輪読会 (On textual analysis and machine learning for cyberstalking detection)

2020-02-08-公開 友人のkangetsu121さん (@kangetsu_121) と始めた論文輪読会。 第2回目となる今回は私の担当でした(第1回目はkangetsu121さん担当)。 ということで紹介した論文。 On textual analysis and machine learning for cyberstalking detection.…

機械学習がサイバーセキュリティにどのように活かされるのか(論文リスト)

2020-02-08-公開 機械学習がサイバーセキュリティにどのように活かされるのか、最近の論文を軽くサーベイした結果(途中)を記載しています。 最近、友人のkangetsu121さん (@kangetsu_121) と「論文を読む習慣を復活させよう」というモチベーションのもと、…

LINE DEV DAY 2019 DAY-1 データサイエンス・機械学習のセッションメモ

2019-11-21-公開 2019-11-20 (水) にグランドニッコー東京 台場で開催された「LINE DEV DAY 2019」のDAY-1に参加してきた。ホテル、豪華だった! linedevday.linecorp.com 満員電車に乗りたくなさすぎてkeynoteは諦めましたが、行ってきます。LINE DEVELOPER…

機械学習における多重共線性(マルチコ)と多重共線性のメカニズムについてのリンク先メモ

2019-10-28-公開 機械学習における多重共線性(マルチコ)について調べた際、参考にさせていただいた記事をメモしておきます。 ただのメモですので、より詳細な説明等はリンク先の記事を御覧ください。 機械学習における多重共線性 心理統計学の分野では、重…

AWS入門時に参考にした記事(概要・コマンドラインからの実行・Jupyter Notebookの使用)

2019-10-15 公開 遅ればせながらAWS(Amazon Web Services)を触り始めたので、その際に参考にさせていただいた記事やドキュメントをメモしておく。 データ分析に使用するので、ひとまずの目的は以下の4つ。 概要・全体像把握 インスタンス立ち上げ・GPUを用い…

UnderSamplingで抽出したデータ以外の(使用しなかったindexの)データを取得

2019-10-04 公開 機械学習を行う際、正例(y = 1)と負例(y = 0)との割合が極端に偏っているケースがある。 割合が偏っていると、データの多い方を優先して予測してしまうことが多く、予測結果がすべてy = 0なんてことも。悲惨である。 そういう場合 多すぎる…

統計検定1級に向けて

2019-07-21 公開 / 2020-06-26 更新 発達心理学やアルバイト、フリーランスのお仕事でデータ分析をやっていた関係で、2012年ごろから2020年までかれこれ6年ほど統計分析に関わってきた(ブランクあるので-2年)。 データ分析、これからも重要そうなので改め…

Pythonで横向きのツリー図(樹形図)を描写

2019-07-19 公開 / 2019-07-20 更新 階層的なデータを可視化する際、ツリー図(樹形図)をPythonで描きたいこともある。 そんなとき、graphvizを使うと便利。 今回はデモとして東京都の区市町村名をツリー図で描写してみる。 入力と出力 入力 出力 環境構築 …

Jupyter Notebook保存時にpyファイルも一緒に保存・更新できるとgitでの差分管理が楽

2019-07-19 公開 / 2019-07-30 更新 Jupyter好きなんだけどgitでの差分管理がつらい。 pyファイルを保存すれば差分が見られるようになるが、Jupyter Notebookのメニューからpyファイルを保存すると、いらない情報も一緒に保存されて差分管理の邪魔。 そんな…

読書記録

[公開]2019-06-18 / [更新]2024-02-20 読書記録 Twitterに投稿した読書メモをまとめた 大雑把な分野別に掲載 分野内では最近読んだ本が上に来ている 2018年8月15日~現在までの読書記録 読書記録 データ分析 機械学習を解釈する技術〜予測力と説明力を両…

pandasデータフレームのforループ処理高速化ーPythonのmultiprocessingによる並列処理

2019-05-10-公開, 2019-09-26-公開 前提 <2019-09-26追記> forループはできるだけ避けること。groupbyを使って同様の実装を行うだけで想像以上に高速になる。 pandasのgroupbyを使えば、2つ以上のDataFrameを結合した後の行数のカウントや集計も可能 処理速…

Pythonのpandasデータフレームの要素の値が変更される場合と変更されない場合+行名ではなく行番号で指定する方法

2019-05-08-公開 2019-05-10-更新 困りごと Pythonのpandasでデータフレームの値を変更しようとした際、代入できず困った pandasをソートして一番最初の行を取ってこようとした際、行番号ではなく行名?での指定が行われて困った 解決策 ※1.の原因と対策は以…

Jupyter Notebookに目次を出したり変数一覧を表示したり

2019-03-10 公開 / 2019-07-21 更新 目次と変数一覧はとても便利。自分用の設定手順メモ。 やりたいこと 方法 変数一覧も出せる やりたいこと 以下のリンク先のように、Jupyter Notebookに目次を出したい。 サイドバーから任意の見出しに飛べるようになるた…