機械学習初心者(私)が、機械学習の初歩を学ぶためのリポジトリです。記載内容の誤り(認識違い)の指摘は大歓迎です。
machine-learning-notes
├── LICENSE
├── README.md
├── datasets ※ 分析対象データセット(ライセンスは、データ公開元のライセンスに準じる)
├── main.py
├── notebooks ※ datasets を分析するための Jupyter Notebooks
├── notes ※ 機械学習を学ぶ上で必要な基礎知識の格納場所
│ ├── math
│ ├── ml
│ └── mlops
├── pyproject.toml
├── scripts
│ ├── datasets
│ └── download_datasets.py ※ 全データセットを一括で取得するエントリポイント
└── uv.lock| No. | 分類 | 項目名 |
|---|---|---|
| 1 | Notebooks | クレカ不正検出 |
| 2 | Mathematics | 平均(算術平均) |
| 3 | Mathematics | 中央値(メジアン) |
| 4 | Mathematics | 四分位点(quartile) |
| 5 | Mathematics | 分散(バリアンス) |
| 6 | Mathematics | 標準偏差 |
| 7 | Mathematics | 歪度(skewness)と log1p 変換 |
| 8 | Mathematics | カーネル密度推定(KDE) |
| 9 | Mathematics | 相関係数 |
| 10 | Machine Learning | ROC-AUC / PR-AUC |
| 11 | Machine Learning | 混同行列・偽陽性/偽陰性・閾値調整 |
| 12 | Machine Learning | PCA - Principal Component Analysis |
| 13 | Machine Learning | k-means - K-means/k平均法 |
| 14 | ML Ops | 作成中 |
- Python 3.12 以上
- uv(Python パッケージ・環境管理ツール)
- Visual Studio Code ※ Jupyter Notebook で代用も可能
- Microsoft が提供している Jupyter Extension を利用
- Kaggle アカウント
- Kaggle API トークンを発行し、
~/.kaggle/kaggle.jsonに配置済みであること - ※ トークンの取得方法は Kaggle 公式ドキュメントを参照してください
- Kaggle API トークンを発行し、
python, uv, VS Code は、別途インストールしてください。以下のコマンドを実行すると、依存パッケージがインストールされます。
uv syncVS Code上で Ctrl + Shift + P → Python: Select Interpreter を選択し、.venv/bin/pythonを選択してください。
Kaggle のデータセット取得には、個人の API トークンが必要です。
以下の手順で取得してください:
- Kaggle にログイン
- Account Settings → API → Create New Token
- ダウンロードした
kaggle.jsonを~/.kaggle/に配置 - パーミッションを600に制限
データセットは、100MBを超えるファイルが多く、GitHub にアップロードできません。正確には、Git LFS を利用すればアップロード可能ですが、無料枠に収まらない見込みです。
以下のコマンドで、データセットをダウンロードしてください。
uv run python scripts/download_datasets.py※ 分析に利用するデータセットは、オリジナルデータ公開元のライセンスに従います。
- 事例で学ぶ特徴量エンジニアリング
- The Kaggle Book:データ分析競技 実践ガイド&精鋭31人インタビュー
- 見て試してわかる機械学習アルゴリズムの仕組み 機械学習図鑑
- MLOps実装ガイド 本番運用を見据えた開発戦略
- 仕事ではじめる機械学習 第2版
- 機械学習システムデザイン 実運用レベルのアプリケーションを実現する継続的反復プロセス
- 楽しみながら学ぶベイズ統計
- データサイエンスのための数学入門 Pythonで学ぶ線形代数、確率、統計の基礎
- 「原因と結果」の経済学 データから真実を見抜く思考法
- Pythonで学ぶあたらしい統計学の教科書
- 前処理大全
- 戦略的データサイエンス入門―ビジネスに活かすコンセプトとテクニック
- ゼロから作るDeep Learning―Pythonで学ぶディープラーニングの理論と実装