1s.xyz / LLM周辺用語教科書

LLM周辺用語教科書 — モデル・推論・学習の全体像を掴む

全25章の教科書です。章を選んで読み始めてください。

第1部: 全体像をつかむ

第1章. LLM周辺の世界地図 — 目的: 用語の森に入る前に、全体の地図を持つ

第2部: モデルとは何か

第2章. モデル・重み・トークナイザ — 目的: 「モデル」という言葉が何を指すのか曖昧にしない

第3部: モデルはどこにあるのか

第3章. Hugging Faceとは何か — 目的: Hugging Face を「ただのサイト」以上のものとして理解する

第4部: モデル形式と保存形式

第4章. モデルファイル形式の基本 — 目的: 「GGUFって何？ safetensorsって何？」を整理する
第5章. GGUFを重点的に理解する — 目的: ローカルLLMで頻出するGGUFを深掘りする

第5部: どうやってモデルを動かすのか

第6章. 推論ランタイムとは何か — 目的: llama.cpp や vLLM を「ランタイム」として理解する
第7章. llama.cppとは何か — 目的: ローカルLLM界で頻出する llama.cpp の役割を明確にする
第8章. Ollama / LM Studio / Open WebUI / Jan など — 目的: 実行エンジンとUIツールの違いを整理する
第9章. vLLM / TGI / TensorRT-LLM — 目的: サーバ向け推論基盤を整理する

第6部: どうやって軽くするのか

第10章. 量子化（Quantization） — 目的: FP16/BF16/INT8/4bit などの意味を整理する
第11章. BitNet / ternary / 1-bit系 — 目的: 低ビット化の最先端の見取り図を作る

第7部: 学習と微調整

第12章. 事前学習・継続事前学習・SFT — 目的: 学習系の大分類を理解する
第13章. LoRA / QLoRA / Adapter — 目的: 微調整系の頻出語を整理する
第14章. 学習ツール群 — 目的: 学習で出てくるツール名の位置づけを整理する

第8部: 推論高速化

第15章. KV cache / batching / paged attention — 目的: 速度まわりの基礎概念を整理する
第16章. speculative decoding / EAGLE / DFlash — 目的: 最近の高速化トピックを体系化する

第9部: ハードウェアと実行環境

第17章. CPU / GPU / NPU / TPU の違い — 目的: どのハードが何に向くかを整理する
第18章. CUDA / ROCm / Metal / DirectML — 目的: 実行バックエンドの違いを理解する

第10部: データ・検索・周辺システム

第19章. RAG / embedding / vector DB — 目的: モデル単体ではなく周辺システムまで理解する
第20章. エージェント / ツール利用 / MCP — 目的: 最近のAIアプリ文脈の頻出語を整理する

第11部: 実務で混乱しやすい比較特集

第21章. よく混同される用語まとめ

第12部: 付録