Skip to content

nao1215/machine-learning-notes

Repository files navigation

Machine Learning Notes

機械学習初心者(私)が、機械学習の初歩を学ぶためのリポジトリです。記載内容の誤り(認識違い)の指摘は大歓迎です。

ディレクトリ構成

machine-learning-notes
├── LICENSE
├── README.md
├── datasets  ※ 分析対象データセット(ライセンスは、データ公開元のライセンスに準じる)
├── main.py
├── notebooks ※ datasets を分析するための Jupyter Notebooks
├── notes     ※ 機械学習を学ぶ上で必要な基礎知識の格納場所
│   ├── math
│   ├── ml
│   └── mlops
├── pyproject.toml
├── scripts
│   ├── datasets
│   └── download_datasets.py ※ 全データセットを一括で取得するエントリポイント
└── uv.lock

コンテンツ

No. 分類 項目名
1 Notebooks クレカ不正検出
2 Mathematics 平均(算術平均)
3 Mathematics 中央値(メジアン)
4 Mathematics 四分位点(quartile)
5 Mathematics 分散(バリアンス)
6 Mathematics 標準偏差
7 Mathematics 歪度(skewness)と log1p 変換
8 Mathematics カーネル密度推定(KDE)
9 Mathematics 相関係数
10 Machine Learning ROC-AUC / PR-AUC
11 Machine Learning 混同行列・偽陽性/偽陰性・閾値調整
12 Machine Learning PCA - Principal Component Analysis
13 Machine Learning k-means - K-means/k平均法
14 ML Ops 作成中

実行環境の構築

前提条件

  • Python 3.12 以上
  • uv(Python パッケージ・環境管理ツール)
  • Visual Studio Code ※ Jupyter Notebook で代用も可能
  • Kaggle アカウント
    • Kaggle API トークンを発行し、~/.kaggle/kaggle.json に配置済みであること
    • ※ トークンの取得方法は Kaggle 公式ドキュメントを参照してください

パッケージのインストール

python, uv, VS Code は、別途インストールしてください。以下のコマンドを実行すると、依存パッケージがインストールされます。

uv sync

利用する Python の指定

VS Code上で Ctrl + Shift + P → Python: Select Interpreter を選択し、.venv/bin/pythonを選択してください。

Kaggle API トークンについて

Kaggle のデータセット取得には、個人の API トークンが必要です。

以下の手順で取得してください:

  1. Kaggle にログイン
  2. Account Settings → API → Create New Token
  3. ダウンロードした kaggle.json~/.kaggle/ に配置
  4. パーミッションを600に制限

データセットのダウンロード

データセットは、100MBを超えるファイルが多く、GitHub にアップロードできません。正確には、Git LFS を利用すればアップロード可能ですが、無料枠に収まらない見込みです。

以下のコマンドで、データセットをダウンロードしてください。

uv run python scripts/download_datasets.py

ライセンス

MIT LICENSE

※ 分析に利用するデータセットは、オリジナルデータ公開元のライセンスに従います。

参考文献(手元にある書籍リスト)

About

機械学習に関する情報をまとめるリポジトリ

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Sponsor this project

 

Packages

No packages published