LLM周辺用語 教科書 — モデル・推論・学習の全体像を掴む
全25章の教科書です。章を選んで読み始めてください。
第1部: 全体像をつかむ
- 第1章. LLM周辺の世界地図 — 目的: 用語の森に入る前に、全体の地図を持つ
第2部: モデルとは何か
- 第2章. モデル・重み・トークナイザ — 目的: 「モデル」という言葉が何を指すのか曖昧にしない
第3部: モデルはどこにあるのか
- 第3章. Hugging Faceとは何か — 目的: Hugging Face を「ただのサイト」以上のものとして理解する
第4部: モデル形式と保存形式
- 第4章. モデルファイル形式の基本 — 目的: 「GGUFって何? safetensorsって何?」を整理する
- 第5章. GGUFを重点的に理解する — 目的: ローカルLLMで頻出するGGUFを深掘りする
第5部: どうやってモデルを動かすのか
- 第6章. 推論ランタイムとは何か — 目的: llama.cpp や vLLM を「ランタイム」として理解する
- 第7章. llama.cppとは何か — 目的: ローカルLLM界で頻出する llama.cpp の役割を明確にする
- 第8章. Ollama / LM Studio / Open WebUI / Jan など — 目的: 実行エンジンとUIツールの違いを整理する
- 第9章. vLLM / TGI / TensorRT-LLM — 目的: サーバ向け推論基盤を整理する
第6部: どうやって軽くするのか
- 第10章. 量子化(Quantization) — 目的: FP16/BF16/INT8/4bit などの意味を整理する
- 第11章. BitNet / ternary / 1-bit系 — 目的: 低ビット化の最先端の見取り図を作る
第7部: 学習と微調整
- 第12章. 事前学習・継続事前学習・SFT — 目的: 学習系の大分類を理解する
- 第13章. LoRA / QLoRA / Adapter — 目的: 微調整系の頻出語を整理する
- 第14章. 学習ツール群 — 目的: 学習で出てくるツール名の位置づけを整理する
第8部: 推論高速化
- 第15章. KV cache / batching / paged attention — 目的: 速度まわりの基礎概念を整理する
- 第16章. speculative decoding / EAGLE / DFlash — 目的: 最近の高速化トピックを体系化する
第9部: ハードウェアと実行環境
- 第17章. CPU / GPU / NPU / TPU の違い — 目的: どのハードが何に向くかを整理する
- 第18章. CUDA / ROCm / Metal / DirectML — 目的: 実行バックエンドの違いを理解する
第10部: データ・検索・周辺システム
- 第19章. RAG / embedding / vector DB — 目的: モデル単体ではなく周辺システムまで理解する
- 第20章. エージェント / ツール利用 / MCP — 目的: 最近のAIアプリ文脈の頻出語を整理する