本文へスキップ
LLM用語集
1-bit
- ひとことで言うと: 情報を1ビット(0か1)だけで表現する、極端に軽量なモデルの重み表現方法です。
- カテゴリ: 量子化、低ビット化
- 何に使うのか: モデルサイズと計算量を大幅に削減し、非常に限られたリソースのデバイスでもLLMを動かすことを目指します。
- よく混同される用語: BitNet, ternary
- 初出の章: 第11章
1.58-bit
- ひとことで言うと: BitNetで採用されている、1ビットより少しだけ多くの情報(1.58ビット)を使ってモデルの重みを表現する技術です。
- カテゴリ: 量子化、低ビット化
- 何に使うのか: 1ビットでは表現しきれない細かな情報を保持しつつ、モデルを極めて軽量に保ちます。
- よく混同される用語: BitNet, 1-bit
- 初出の章: 第11章
4bit
- ひとことで言うと: モデルの重みを4ビットの精度で表現する量子化手法です。
- カテゴリ: 量子化
- 何に使うのか: モデルサイズとメモリ使用量を大幅に削減し、より少ないGPUメモリでLLMを実行できるようにします。
- よく混同される用語: Q4, INT8
- 初出の章: 第10章
accelerate
- ひとことで言うと: PyTorchの学習コードを、シングルGPU、マルチGPU、CPUなど様々な環境で簡単に分散学習できるようにするHugging Faceのライブラリです。
- カテゴリ: 学習ツール
- 何に使うのか: 大規模モデルの学習やファインチューニングを効率的に行います。
- よく混同される用語: transformers, deepspeed, FSDP
- 初出の章: 第14章
adapter
- ひとことで言うと: 大規模言語モデル(LLM)の既存の構造に、小さな新しい層(アダプター)を追加して、特定のタスクに合わせてモデルを微調整する技術です。
- カテゴリ: ファインチューニング、PEFT
- 何に使うのか: モデル全体を再学習するよりも少ない計算リソースで、LLMを特定のタスクに適応させます。
- よく混同される用語: LoRA, QLoRA
- 初出の章: 第13章
agent
- ひとことで言うと: 大規模言語モデル(LLM)が、目標を達成するために自律的に計画を立て、ツールを使い、行動する能力を持つシステムのことです。
- カテゴリ: LLM応用、AIシステム
- 何に使うのか: 複雑なタスクを自動化したり、ユーザーの指示に基づいて複数のステップを実行したりします。
- よく混同される用語: tool calling, function calling
- 初出の章: 第20章
alignment
- ひとことで言うと: 大規模言語モデル(LLM)が、人間の意図や価値観、倫理観に沿った振る舞いをするように調整するプロセスです。
- カテゴリ: 学習、倫理
- 何に使うのか: LLMが有害な内容を生成したり、誤った情報を拡散したりするのを防ぎ、より安全で有用なAIにするために行われます。
- よく混同される用語: RLHF, DPO, SFT
- 初出の章: 第12章
API
- ひとことで言うと: ソフトウェア同士が情報をやり取りするための窓口やルールのようなものです。
- カテゴリ: ソフトウェア連携
- 何に使うのか: 自分のプログラムからLLMの機能(テキスト生成など)を呼び出して利用するために使います。
- よく混同される用語: runtime
- 初出の章: 第1章
architecture
- ひとことで言うと: 大規模言語モデル(LLM)の内部構造や設計図のことです。どのような層がどのように積み重なっているかなどを指します。
- カテゴリ: モデル構造
- 何に使うのか: モデルの性能や特性を理解し、新しいモデルを設計する際の基礎となります。
- よく混同される用語: model, parameters
- 初出の章: 第2章
AWQ
- ひとことで言うと: LLMの量子化手法の一つで、モデルの重みの中から重要な部分を特定し、それらを高精度に保ちつつ、他の部分を低精度に量子化することで、性能低下を抑えながら軽量化を実現します。
- カテゴリ: 量子化
- 何に使うのか: 量子化されたモデルの推論速度を向上させ、メモリ使用量を削減します。
- よく混同される用語: GPTQ, quantization
- 初出の章: 第10章
Axolotl
- ひとことで言うと: 大規模言語モデル(LLM)のファインチューニングを簡単に行うための、設定ファイルベースのツールキットです。
- カテゴリ: 学習ツール
- 何に使うのか: ユーザーが独自のデータセットを使って、LoRAなどの手法でLLMを効率的にファインチューニングする際に利用します。
- よく混同される用語: LLaMA-Factory, unsloth
- 初出の章: 第14章
backend
- ひとことで言うと: ソフトウェアの裏側で、実際の処理(計算やデータ管理など)を行う部分のことです。
- カテゴリ: ソフトウェアアーキテクチャ
- 何に使うのか: LLMの推論ランタイムにおいて、GPUなどのハードウェアと連携して計算を実行する役割を担います。
- よく混同される用語: inference engine, kernel
- 初出の章: 第6章
batch
- ひとことで言うと: 複数の入力をまとめて一度に処理すること、またはその入力のまとまりのことです。
- カテゴリ: 推論最適化
- 何に使うのか: LLMの推論において、GPUなどの計算リソースを効率的に利用し、スループット(単位時間あたりの処理量)を向上させます。
- よく混同される用語: batching
- 初出の章: 第7章
batching
- ひとことで言うと: 複数のリクエスト(入力)をまとめて一度に処理する技術です。
- カテゴリ: 推論最適化
- 何に使うのか: LLMの推論において、GPUなどのハードウェアを効率的に利用し、全体の処理速度(スループット)を向上させます。
- よく混同される用語: batch
- 初出の章: 第9章
BF16
- ひとことで言うと: 「BFloat16」の略で、浮動小数点数を16ビットで表現する形式の一つです。FP16よりも広い範囲の数値を表現できます。
- カテゴリ: データ型、量子化
- 何に使うのか: 大規模モデルの学習や推論において、FP32よりもメモリ使用量と計算量を削減しつつ、精度低下を抑えるために使われます。
- よく混同される用語: FP16, FP32
- 初出の章: 第10章
BitNet
- ひとことで言うと: モデルの重みを極めて低いビット数(例: 1ビットや1.58ビット)で表現する、新しいタイプの低ビットLLMアーキテクチャです。
- カテゴリ: 量子化、低ビット化
- 何に使うのか: モデルサイズと計算量を劇的に削減し、より少ないリソースでLLMを動かすことを可能にします。
- よく混同される用語: 1-bit, ternary
- 初出の章: 第11章
bitnet.cpp
- ひとことで言うと: BitNetモデルをC++で効率的に実行するための実装プロジェクトです。
- カテゴリ: 低ビット化、ランタイム
- 何に使うのか: BitNetのような極端に軽量なモデルを、様々なデバイスで高速に推論するために利用されます。
- よく混同される用語: llama.cpp
- 初出の章: 第11章
bitsandbytes
- ひとことで言うと: PyTorchモデルの量子化や低精度学習をサポートするPythonライブラリです。
- カテゴリ: 量子化、学習ツール
- 何に使うのか: LLMのメモリ使用量を削減し、より少ないGPUメモリで学習や推論を行えるようにします。
- よく混同される用語: quantization, QLoRA
- 初出の章: 第10章
checkpoint
- ひとことで言うと: モデルの学習途中の状態(重み、最適化器の状態など)を保存したファイルのことです。
- カテゴリ: モデル管理
- 何に使うのか: 学習を中断した場所から再開したり、異なるタスクでモデルを微調整したりするために使われます。
- よく混同される用語: model, weights
- 初出の章: 第2章
chunking
- ひとことで言うと: 長いテキストを、LLMが一度に処理できる適切なサイズの小さな塊(チャンク)に分割する処理です。
- カテゴリ: RAG、前処理
- 何に使うのか: RAGシステムで、大量のドキュメントから関連情報を効率的に検索し、LLMの入力制限(コンテキスト長)に収まるようにします。
- よく混同される用語: context length
- 初出の章: 第19章
context
- ひとことで言うと: 大規模言語モデル(LLM)がテキストを生成する際に考慮する、直前の入力や会話の履歴のことです。
- カテゴリ: LLMの動作
- 何に使うのか: LLMが文脈に合った、より自然で一貫性のある応答を生成するために重要です。
- よく混同される用語: context length
- 初出の章: 第7章
context length
- ひとことで言うと: 大規模言語モデル(LLM)が一度に処理できるテキストの最大長(トークン数)のことです。
- カテゴリ: モデルの制約
- 何に使うのか: LLMがどれだけの情報を記憶し、考慮しながらテキストを生成できるかを示します。長いほど複雑なタスクに対応できますが、計算コストも増えます。
- よく混同される用語: vocab, chunking
- 初出の章: 第2章
continued pretraining
- ひとことで言うと: 既存の事前学習済みLLMを、特定のドメインや新しいデータでさらに学習させることです。
- カテゴリ: 学習
- 何に使うのか: モデルに新しい知識や専門分野の情報を追加したり、特定のタスクへの適応能力を高めたりします。
- よく混同される用語: fine-tuning, LoRA
- 初出の章: 第12章
CUDA
- ひとことで言うと: NVIDIA社が提供する、GPU上で並列計算を行うための開発プラットフォームです。
- カテゴリ: GPUアクセラレーション
- 何に使うのか: LLMの学習や推論といった、大量の並列計算が必要な処理を高速に実行するために使われます。
- よく混同される用語: ROCm, Metal, DirectML
- 初出の章: 第18章
dataset
- ひとことで言うと: モデルの学習や評価に使われる、整理されたデータの集まりです。
- カテゴリ: データ
- 何に使うのか: LLMの学習やファインチューニング、性能評価のために不可欠です。
- よく混同される用語: repository
- 初出の章: 第3章
deepspeed
- ひとことで言うと: Microsoftが開発した、大規模モデルの学習を効率化するための最適化ライブラリです。
- カテゴリ: 学習ツール
- 何に使うのか: 巨大なLLMを、より少ないGPUメモリで、より高速に学習できるようにします。
- よく混同される用語: FSDP, accelerate
- 初出の章: 第14章
DFlash
- ひとことで言うと: KVキャッシュの効率を向上させるための技術で、特に推論時のメモリ使用量を削減し、速度を向上させます。
- カテゴリ: 推論最適化
- 何に使うのか: LLMの推論速度と効率を高め、より長いコンテキスト長を扱えるようにします。
- よく混同される用語: speculative decoding, KV cache
- 初出の章: 第16章
DirectML
- ひとことで言うと: Microsoftが提供する、Windows上でGPUアクセラレーションを利用するためのAPIです。
- カテゴリ: GPUアクセラレーション
- 何に使うのか: NVIDIA以外のGPU(AMD, Intelなど)を搭載したWindows PCで、LLMの推論などを高速化するために使われます。
- よく混同される用語: CUDA, ROCm, Metal
- 初出の章: 第18章
diffusion draft
- ひとことで言うと: speculative decodingのドラフトモデルとして、拡散モデル(Diffusion Model)を利用する手法です。
- カテゴリ: 推論最適化
- 何に使うのか: より高品質なドラフトを生成することで、speculative decodingの効率をさらに向上させ、推論速度を高めます。
- よく混同される用語: speculative decoding, draft model
- 初出の章: 第16章
DPO
- ひとことで言うと: 「Direct Preference Optimization」の略で、人間の好み(どちらの応答が良いか)を直接モデルに学習させることで、LLMをアラインメントする手法です。
- カテゴリ: 学習、アラインメント
- 何に使うのか: RLHF(強化学習)よりもシンプルかつ安定して、LLMを人間の意図に沿った振る舞いに調整します。
- よく混同される用語: RLHF, SFT, alignment
- 初出の章: 第12章
draft model
- ひとことで言うと: speculative decodingにおいて、高速だが精度が低い応答を素早く生成する、軽量なモデルです。
- カテゴリ: 推論最適化
- 何に使うのか: 高精度なメインモデルの計算量を減らし、LLM全体の推論速度を向上させます。
- よく混同される用語: speculative decoding, verifier
- 初出の章: 第16章
EAGLE
- ひとことで言うと: speculative decodingをさらに効率化し、より高速な推論を実現するための技術です。
- カテゴリ: 推論最適化
- 何に使うのか: LLMの応答速度を向上させ、リアルタイム性が求められるアプリケーションでの利用を可能にします。
- よく混同される用語: speculative decoding
- 初出の章: 第16章
embedding
- ひとことで言うと: 単語や文章などのテキスト情報を、意味的な特徴を保ったまま数値のベクトル(多次元の点)に変換したものです。
- カテゴリ: 自然言語処理、RAG
- 何に使うのか: テキスト間の意味的な類似度を計算したり、機械学習モデルの入力として使われたりします。RAGでは、関連文書の検索に不可欠です。
- よく混同される用語: vector DB
- 初出の章: 第2章
fine-tuning
- ひとことで言うと: 事前学習済みのLLMを、特定のタスクやデータセットに合わせてさらに学習させることです。
- カテゴリ: 学習
- 何に使うのか: モデルの性能を向上させたり、特定の用途に適応させたりします。
- よく混同される用語: LoRA, continued pretraining
- 初出の章: 第1章
FP16
- ひとことで言うと: 「Half-precision floating-point」の略で、浮動小数点数を16ビットで表現する形式です。
- カテゴリ: データ型、量子化
- 何に使うのか: FP32よりもメモリ使用量と計算量を削減し、大規模モデルの学習や推論を高速化します。
- よく混同される用語: FP32, BF16
- 初出の章: 第10章
FP32
- ひとことで言うと: 「Single-precision floating-point」の略で、浮動小数点数を32ビットで表現する形式です。多くの計算で標準的に使われます。
- カテゴリ: データ型
- 何に使うのか: モデルの重みや計算の中間結果を高い精度で保持するために使われます。
- よく混同される用語: FP16, BF16
- 初出の章: 第10章
FP8
- ひとことで言うと: 浮動小数点数を8ビットで表現する形式です。FP16やBF16よりもさらにメモリ使用量と計算量を削減できます。
- カテゴリ: データ型、量子化
- 何に使うのか: 極めて大規模なモデルの学習や推論において、リソース効率を最大化するために研究・利用されています。
- よく混同される用語: INT8, 4bit
- 初出の章: 第10章
FSDP
- ひとことで言うと: 「Fully Sharded Data Parallel」の略で、大規模モデルの学習において、モデルの重み、勾配、最適化器の状態などを複数のGPUに分散して保存・計算する技術です。
- カテゴリ: 学習ツール、分散学習
- 何に使うのか: 巨大なLLMを、より少ないGPUメモリで、より高速に学習できるようにします。
- よく混同される用語: deepspeed, accelerate
- 初出の章: 第14章
function calling
- ひとことで言うと: 大規模言語モデル(LLM)が、ユーザーの指示に基づいて外部のツールやAPIの関数を呼び出すための機能です。
- カテゴリ: LLM応用、ツール利用
- 何に使うのか: LLMがリアルタイム情報にアクセスしたり、計算を実行したり、外部システムを操作したりすることを可能にします。
- よく混同される用語: tool calling, agent
- 初出の章: 第20章
GGUF
- ひとことで言うと: ローカル環境でのLLM実行に特化した、効率的なモデルファイル形式です。量子化された重みやメタデータを含みます。
- カテゴリ: モデルファイル形式
- 何に使うのか: CPUや一般的なGPUでLLMを効率的に動かすために使われます。特にllama.cppで広く採用されています。
- よく混同される用語: safetensors, quantization, model architecture
- 初出の章: 第4章
GPTQ
- ひとことで言うと: LLMの量子化手法の一つで、モデルの重みを4ビットなどの低精度に変換する際に、元のモデルの性能をできるだけ維持するように最適化します。
- カテゴリ: 量子化
- 何に使うのか: 量子化されたモデルの推論速度を向上させ、メモリ使用量を削減します。
- よく混同される用語: AWQ, quantization
- 初出の章: 第10章
Hub
- ひとことで言うと: Hugging Faceが提供する、モデル、データセット、デモスペースなどを共有・発見できるプラットフォームです。
- カテゴリ: プラットフォーム
- 何に使うのか: 世界中のAI開発者がLLMや関連リソースを公開・利用するために使われます。
- よく混同される用語: Hugging Face, repository
- 初出の章: 第3章
Hugging Face
- ひとことで言うと: 大規模言語モデル(LLM)を中心としたAI技術のオープンソース開発を推進する企業であり、そのプラットフォームです。
- カテゴリ: プラットフォーム、企業
- 何に使うのか: モデルの共有、学習ツールの提供、デモスペースのホスティングなど、LLM開発のあらゆる側面をサポートします。
- よく混同される用語: transformers
- 初出の章: 第3章
hybrid search
- ひとことで言うと: キーワード検索(伝統的な検索)とベクトル検索(意味的な類似度検索)を組み合わせて、より関連性の高い情報を探し出す検索手法です。
- カテゴリ: RAG、検索技術
- 何に使うのか: RAGシステムにおいて、検索の精度を向上させ、LLMに提供する情報の質を高めます。
- よく混同される用語: retrieval, vector DB
- 初出の章: 第19章
inference
- ひとことで言うと: 学習済みのモデルに新しいデータ(入力)を与えて、予測や生成などの結果を得るプロセスです。
- カテゴリ: LLMの利用
- 何に使うのか: LLMに質問を投げかけたり、テキストを生成させたりする際に、実際にモデルが動いて結果を出すことです。
- よく混同される用語: serving, training
- 初出の章: 第1章
inference engine
- ひとことで言うと: モデルの推論(inference)を効率的に実行するためのソフトウェアコンポーネントです。
- カテゴリ: 推論ランタイム
- 何に使うのか: モデルファイルを読み込み、GPUなどのハードウェアを最大限に活用して、高速に推論結果を生成します。
- よく混同される用語: backend, runtime
- 初出の章: 第6章
INT8
- ひとことで言うと: 整数を8ビットで表現する形式です。浮動小数点数よりもメモリ使用量と計算量を大幅に削減できます。
- カテゴリ: データ型、量子化
- 何に使うのか: 量子化されたモデルの推論において、高速化とメモリ削減を実現します。
- よく混同される用語: FP8, 4bit
- 初出の章: 第10章
kernel
- ひとことで言うと: GPUなどのハードウェア上で実行される、並列処理に特化した小さなプログラムのことです。
- カテゴリ: GPUアクセラレーション
- 何に使うのか: LLMの計算(行列積など)を高速に実行するために、CUDAなどのプラットフォームを通じて呼び出されます。
- よく混同される用語: backend
- 初出の章: 第18章
K-quants
- ひとことで言うと: GGUF形式で使われる、量子化手法の一種です。モデルの重みをグループ分けし、それぞれのグループに最適な量子化方法を適用することで、効率と精度を両立させます。
- カテゴリ: 量子化、GGUF
- 何に使うのか: GGUFモデルのファイルサイズを小さくし、CPUや一般的なGPUでの実行性能を向上させます。
- よく混同される用語: quantization, GGUF
- 初出の章: 第5章
KV cache
- ひとことで言うと: 大規模言語モデル(LLM)がテキストを生成する際に、以前に計算した「Key」と「Value」の情報を一時的に保存しておくメモリ領域です。
- カテゴリ: 推論最適化
- 何に使うのか: 同じ情報を繰り返し計算するのを避け、LLMのテキスト生成速度を大幅に向上させます。
- よく混同される用語: paged attention
- 初出の章: 第6章
latency
- ひとことで言うと: リクエストが送信されてから、その応答が返ってくるまでの時間のことです。
- カテゴリ: 性能指標
- 何に使うのか: LLMの応答速度を示す指標で、ユーザー体験に直結します。低いほど良いとされます。
- よく混同される用語: throughput
- 初出の章: 第9章
LLaMA-Factory
- ひとことで言うと: 大規模言語モデル(LLM)のファインチューニングを簡単に行うための、Web UIも備えたツールキットです。
- カテゴリ: 学習ツール
- 何に使うのか: ユーザーが独自のデータセットを使って、LoRAなどの手法でLLMを効率的にファインチューニングする際に利用します。
- よく混同される用語: Axolotl, unsloth
- 初出の章: 第14章
llama.cpp
- ひとことで言うと: C++で書かれた、GGUF形式のLLMをCPUや一般的なGPUで高速に実行するための推論エンジンです。
- カテゴリ: 推論ランタイム
- 何に使うのか: ローカルPCでLLMを動かす際のデファクトスタンダード的なツールです。
- よく混同される用語: Ollama, vLLM, transformers
- 初出の章: 第7章
LLM
- ひとことで言うと: 大量のテキストデータで学習された、人間のような自然な言葉を理解し、生成できる巨大なAIモデルです。
- カテゴリ: AIモデル
- 何に使うのか: 文章の生成、質問応答、翻訳、要約など、様々な言語タスクに利用されます。
- よく混同される用語: model
- 初出の章: 第1章
LM Studio
- ひとことで言うと: ローカルPCでLLMを簡単にダウンロード、実行、チャットできるデスクトップアプリケーションです。
- カテゴリ: ローカルLLMツール
- 何に使うのか: 技術的な知識が少なくても、手軽にローカルLLMを試したい場合に利用します。
- よく混同される用語: Ollama, llama.cpp
- 初出の章: 第8章
local server
- ひとことで言うと: 自分のPC上で動作し、外部からのリクエストを受け付けて処理を行うプログラムのことです。
- カテゴリ: ソフトウェアアーキテクチャ
- 何に使うのか: ローカルLLMツール(Ollamaなど)が、LLMの推論機能を提供するために使われます。
- よく混同される用語: serving
- 初出の章: 第8章
LoRA
- ひとことで言うと: 「Low-Rank Adaptation」の略で、大規模言語モデル(LLM)を効率的にファインチューニングする技術です。
- カテゴリ: ファインチューニング、PEFT
- 何に使うのか: モデル全体を再学習するよりも少ない計算リソースとメモリで、LLMを特定のタスクに適応させます。
- よく混同される用語: fine-tuning, QLoRA, continued pretraining
- 初出の章: 第13章
MCP
- ひとことで言うと: 「Multi-modal Co-Pilot」の略で、複数の種類の情報(テキスト、画像、音声など)を統合して処理し、ユーザーを支援するAIシステムです。
- カテゴリ: LLM応用、マルチモーダルAI
- 何に使うのか: より複雑で現実世界に近いタスクを、LLMが多様な情報源を活用して解決できるようにします。
- よく混同される用語: agent, tool calling
- 初出の章: 第20章
merge
- ひとことで言うと: LoRAなどのアダプター(追加学習した小さな重み)を、元のモデルの重みに統合する処理です。
- カテゴリ: ファインチューニング
- 何に使うのか: ファインチューニングされたモデルを単一のファイルとして保存し、推論時にアダプターを別途読み込む必要をなくします。
- よく混同される用語: LoRA
- 初出の章: 第13章
- ひとことで言うと: Apple社が提供する、macOSやiOSデバイス上でGPUアクセラレーションを利用するためのAPIです。
- カテゴリ: GPUアクセラレーション
- 何に使うのか: Apple Silicon搭載のMacなどで、LLMの推論などを高速化するために使われます。
- よく混同される用語: CUDA, ROCm, DirectML
- 初出の章: 第18章
- ひとことで言うと: データそのものではなく、データに関する情報(データの種類、作成日時、設定など)のことです。
- カテゴリ: データ管理
- 何に使うのか: GGUFファイルでは、モデルの量子化設定やコンテキスト長などの情報がメタデータとして含まれ、ランタイムがモデルを正しく解釈するために使われます。
- よく混同される用語:
- 初出の章: 第5章
- ひとことで言うと: Appleが開発した機械学習フレームワークMLXで使われるモデルファイル形式です。
- カテゴリ: モデルファイル形式
- 何に使うのか: Apple Silicon搭載デバイスでMLXフレームワークを使ってLLMを効率的に実行するために使われます。
- よく混同される用語: GGUF, safetensors
- 初出の章: 第4章
model
- ひとことで言うと: 学習によって特定のタスクを実行できるように訓練されたAIプログラムのことで、主にその内部の数値データ(重み)を指します。
- カテゴリ: AIモデル
- 何に使うのか: テキスト生成、画像認識、翻訳など、様々なAIタスクを実行するために使われます。
- よく混同される用語: LLM, weights
- 初出の章: 第1章
model card
- ひとことで言うと: Hugging Face Hubなどで公開されているモデルに関する詳細情報(モデルの目的、学習データ、性能、制限事項など)をまとめた説明書です。
- カテゴリ: モデル管理
- 何に使うのか: モデルの利用者が、そのモデルの特性や適切な使い方を理解するために参照します。
- よく混同される用語: repository
- 初出の章: 第3章
model manager
- ひとことで言うと: ローカルLLMツールにおいて、モデルのダウンロード、インストール、管理を行う機能やコンポーネントです。
- カテゴリ: ローカルLLMツール
- 何に使うのか: ユーザーが様々なLLMを簡単に試したり、切り替えたりできるようにします。
- よく混同される用語: Ollama, LM Studio
- 初出の章: 第8章
model file
- ひとことで言うと: 学習済みのモデルの重みや構造などの情報が保存されたファイルです。
- カテゴリ: モデル管理
- 何に使うのか: モデルをロードして推論を実行したり、他のユーザーと共有したりするために使われます。
- よく混同される用語: runtime, checkpoint
- 初出の章: 第4章
native low-bit training
- ひとことで言うと: モデルの学習段階から重みを低ビット(例: 1ビット)で表現し、その精度で学習を進める手法です。
- カテゴリ: 低ビット化、学習
- 何に使うのか: 低ビットモデルの性能を最大限に引き出し、学習後の量子化による精度低下を避けることを目指します。
- よく混同される用語: quantization, BitNet
- 初出の章: 第11章
offload
- ひとことで言うと: 計算の一部を、より高速なデバイス(例: CPUからGPU)に任せることです。
- カテゴリ: 推論最適化
- 何に使うのか: llama.cppなどで、モデルの一部をGPUに配置することで、CPUのみで実行するよりも推論速度を向上させます。
- よく混同される用語:
- 初出の章: 第7章
Ollama
- ひとことで言うと: ローカルPCでLLMを簡単に実行・管理できるツールで、GGUF形式のモデルをダウンロードして動かすことができます。
- カテゴリ: ローカルLLMツール
- 何に使うのか: コマンドラインやAPIを通じて、手軽にローカルLLMを試したり、アプリケーションに組み込んだりします。
- よく混同される用語: llama.cpp, LM Studio
- 初出の章: 第8章
ONNX
- ひとことで言うと: 「Open Neural Network Exchange」の略で、異なる機械学習フレームワーク間でモデルを交換するためのオープンな形式です。
- カテゴリ: モデルファイル形式
- 何に使うのか: PyTorchやTensorFlowで学習したモデルを、ONNX Runtimeなどの推論エンジンで効率的に実行するために使われます。
- よく混同される用語: safetensors, GGUF
- 初出の章: 第4章
OpenAI-compatible API
- ひとことで言うと: OpenAIが提供するAPIと同じ形式でリクエストを受け付け、応答を返すAPIのことです。
- カテゴリ: API
- 何に使うのか: OpenAIのAPIを利用するアプリケーションを、コードを変更せずにローカルLLM(Ollamaなど)に接続できるようにします。
- よく混同される用語: API
- 初出の章: 第8章
Open WebUI
- ひとことで言うと: OllamaなどのローカルLLMサーバーと連携して、Webブラウザ上でチャットインターフェースを提供するツールです。
- カテゴリ: ローカルLLMツール
- 何に使うのか: ローカルで動いているLLMと、視覚的に分かりやすい形で対話するために使われます。
- よく混同される用語: Ollama, LM Studio
- 初出の章: 第8章
orchestration
- ひとことで言うと: 複数の独立したコンポーネントやサービス(例: LLM、ツール、データベース)を連携させ、複雑なワークフロー全体を管理・調整することです。
- カテゴリ: AIシステム、ワークフロー
- 何に使うのか: エージェントシステムや複雑なAIアプリケーションにおいて、各ステップが適切に実行されるように制御します。
- よく混同される用語: workflow, agent
- 初出の章: 第20章
paged attention
- ひとことで言うと: LLMのKVキャッシュを効率的に管理するための技術で、メモリをページ単位で割り当てることで、断片化を防ぎ、より多くのリクエストを同時に処理できるようにします。
- カテゴリ: 推論最適化
- 何に使うのか: LLMの推論スループットを大幅に向上させ、特にvLLMなどの高性能推論サーバーで利用されます。
- よく混同される用語: KV cache, batching
- 初出の章: 第9章
parameters
- ひとことで言うと: モデルの学習可能な部分、つまり重み(weights)やバイアスなどの数値の集まりです。
- カテゴリ: モデル構造
- 何に使うのか: モデルが入力データからパターンを学習し、予測や生成を行うために使われます。モデルの規模を示す指標でもあります。
- よく混同される用語: weights, architecture
- 初出の章: 第2章
PEFT
- ひとことで言うと: 「Parameter-Efficient Fine-Tuning」の略で、大規模言語モデル(LLM)を効率的にファインチューニングするための手法群をまとめたライブラリです。
- カテゴリ: 学習ツール、ファインチューニング
- 何に使うのか: LoRAやQLoRAなどの技術を簡単に実装し、少ない計算リソースでLLMをカスタマイズします。
- よく混同される用語: LoRA, QLoRA
- 初出の章: 第14章
pretraining
- ひとことで言うと: 大量の汎用的なテキストデータ(インターネット上の文章など)を使って、大規模言語モデル(LLM)の基本的な言語能力を学習させる最初の段階です。
- カテゴリ: 学習
- 何に使うのか: モデルが幅広い知識と一般的な言語理解能力を獲得するための土台を築きます。
- よく混同される用語: fine-tuning, continued pretraining
- 初出の章: 第12章
PyTorch checkpoint
- ひとことで言うと: PyTorchフレームワークで学習されたモデルの重みや、学習の状態(最適化器の状態など)を保存したファイル形式です。
- カテゴリ: モデルファイル形式
- 何に使うのか: PyTorchでモデルを学習・開発する際に、学習の途中経過を保存したり、モデルを再開したりするために使われます。
- よく混同される用語: safetensors, GGUF
- 初出の章: 第4章
Q4 / Q5 / Q6 / Q8
- ひとことで言うと: GGUF形式で使われる量子化のレベルを示す表記で、それぞれ4ビット、5ビット、6ビット、8ビットの精度でモデルの重みを表現します。
- カテゴリ: 量子化、GGUF
- 何に使うのか: モデルのファイルサイズと推論速度、そして精度とのバランスを取るために、目的に応じて選択されます。数字が小さいほど軽量ですが、精度が落ちる可能性があります。
- よく混同される用語: quantization, GGUF
- 初出の章: 第5章
QLoRA
- ひとことで言うと: LoRAをさらに進化させ、モデルの重みを量子化(4ビットなど)した状態でLoRAアダプターを学習させる技術です。
- カテゴリ: ファインチューニング、PEFT
- 何に使うのか: LoRAよりもさらに少ないGPUメモリで、大規模LLMのファインチューニングを可能にします。
- よく混同される用語: LoRA, GGUF quantization
- 初出の章: 第13章
quantized model file
- ひとことで言うと: モデルの重みが低精度(例: 4ビット、8ビット)に変換されて保存されたファイルです。
- カテゴリ: モデルファイル形式
- 何に使うのか: モデルのファイルサイズとメモリ使用量を削減し、より少ないリソースでLLMを動かすために使われます。
- よく混同される用語: GGUF, safetensors
- 初出の章: 第4章
quantization
- ひとことで言うと: モデルの重みなどの数値を、より少ないビット数(低精度)で表現するように変換する技術です。
- カテゴリ: モデル軽量化
- 何に使うのか: モデルのファイルサイズ、メモリ使用量、計算量を削減し、推論速度を向上させます。
- よく混同される用語: GGUF
- 初出の章: 第5章
RAG
- ひとことで言うと: 「Retrieval-Augmented Generation」の略で、外部の知識源から関連情報を検索し、それを元にLLMが応答を生成する技術です。
- カテゴリ: LLM応用
- 何に使うのか: LLMが学習データにない最新情報や専門知識を扱えるようにし、ハルシネーション(でたらめな情報生成)を減らします。
- よく混同される用語: SFT
- 初出の章: 第19章
rank
- ひとことで言うと: LoRAにおいて、追加されるアダプター層の「表現力」や「次元」を示す数値です。
- カテゴリ: ファインチューニング、LoRA
- 何に使うのか: rankの値を調整することで、LoRAアダプターのサイズと、元のモデルの性能をどれだけ維持できるかのバランスを制御します。
- よく混同される用語: LoRA
- 初出の章: 第13章
repository
- ひとことで言うと: Hugging Face Hubなどで、モデルやデータセット、コードなどが一式で管理されている場所(フォルダのようなもの)です。
- カテゴリ: モデル管理
- 何に使うのか: 特定のモデルやデータセットに関連するすべてのファイルをまとめて共有・管理するために使われます。
- よく混同される用語: Hub, model card
- 初出の章: 第3章
reranker
- ひとことで言うと: RAGシステムにおいて、検索で得られた複数の文書の中から、LLMにとって最も関連性の高いものを再評価し、順序を付け直すモデルです。
- カテゴリ: RAG、検索技術
- 何に使うのか: LLMに提供する情報の質をさらに向上させ、より正確で適切な応答を生成できるようにします。
- よく混同される用語: retrieval, RAG
- 初出の章: 第19章
retrieval
- ひとことで言うと: データベースや文書コレクションの中から、特定のクエリ(質問)に関連する情報を探し出すプロセスです。
- カテゴリ: RAG、検索技術
- 何に使うのか: RAGシステムにおいて、LLMが応答を生成するための根拠となる外部情報を取得するために行われます。
- よく混同される用語: hybrid search, reranker
- 初出の章: 第19章
RLHF
- ひとことで言うと: 「Reinforcement Learning from Human Feedback」の略で、人間の評価(フィードバック)を元に、強化学習を使ってLLMを調整する手法です。
- カテゴリ: 学習、アラインメント
- 何に使うのか: LLMが人間の意図や好みに沿った、より有用で安全な応答を生成できるようにします。
- よく混同される用語: DPO, SFT, alignment
- 初出の章: 第12章
ROCm
- ひとことで言うと: AMD社が提供する、GPU上で並列計算を行うための開発プラットフォームです。
- カテゴリ: GPUアクセラレーション
- 何に使うのか: AMD製GPUを搭載したシステムで、LLMの学習や推論を高速に実行するために使われます。
- よく混同される用語: CUDA, Metal, DirectML
- 初出の章: 第18章
rope scaling(必要に応じて)
- ひとことで言うと: LLMの「RoPE (Rotary Positional Embedding)」という位置エンコーディング技術を調整し、モデルが学習時よりも長いコンテキスト長を扱えるようにする手法です。
- カテゴリ: モデル拡張
- 何に使うのか: モデルのコンテキスト長を拡張し、より長い文章や会話を処理できるようにします。
- よく混同される用語: context length
- 初出の章: 第5章
runtime
- ひとことで言うと: プログラムを実行するための環境やソフトウェアのことです。
- カテゴリ: ソフトウェア
- 何に使うのか: モデルファイル(データ)を読み込み、実際に計算を実行して結果を生成するために必要です。
- よく混同される用語: model file, inference engine
- 初出の章: 第1章
safetensors
- ひとことで言うと: 機械学習モデルの重みを保存するための、安全で高速なファイル形式です。
- カテゴリ: モデルファイル形式
- 何に使うのか: 悪意のあるコードの埋め込みを防ぎつつ、モデルのロード時間を短縮するために使われます。
- よく混同される用語: GGUF, PyTorch checkpoint
- 初出の章: 第3章
scheduler
- ひとことで言うと: 複数のタスクやリクエストの実行順序やリソースの割り当てを管理するコンポーネントです。
- カテゴリ: 推論ランタイム
- 何に使うのか: LLMの推論ランタイムにおいて、複数のユーザーからのリクエストを効率的に処理し、GPUなどのリソースを最適に利用します。
- よく混同される用語: batching
- 初出の章: 第6章
serving
- ひとことで言うと: 学習済みのモデルを、他のアプリケーションやユーザーが利用できるように、サーバーとして公開し、リクエストに応じて推論結果を提供するプロセスです。
- カテゴリ: LLMの利用
- 何に使うのか: LLMをWebサービスやAPIとして提供し、多くのユーザーが利用できるようにします。
- よく混同される用語: inference, local server
- 初出の章: 第1章
SFT
- ひとことで言うと: 「Supervised Fine-Tuning」の略で、特定のタスクの入出力ペア(質問と模範解答など)を使って、LLMを教師あり学習でファインチューニングする手法です。
- カテゴリ: 学習
- 何に使うのか: モデルを特定のタスク(例: チャットボット、要約)に特化させ、望ましい振る舞いを学習させます。
- よく混同される用語: RAG, RLHF
- 初出の章: 第12章
Spaces
- ひとことで言うと: Hugging Faceが提供する、機械学習モデルのデモやアプリケーションをホストできるプラットフォームです。
- カテゴリ: プラットフォーム
- 何に使うのか: 開発者が自分のモデルを簡単に公開し、他のユーザーがブラウザから試せるようにするために使われます。
- よく混同される用語: Hugging Face Hub
- 初出の章: 第3章
speculative decoding
- ひとことで言うと: LLMの推論速度を向上させる技術で、軽量な「ドラフトモデル」が素早く生成したテキストを、高精度な「検証モデル」がまとめてチェックすることで、高速化を実現します。
- カテゴリ: 推論最適化
- 何に使うのか: LLMの応答速度を大幅に向上させ、リアルタイム性が求められるアプリケーションでの利用を可能にします。
- よく混同される用語: draft model, verifier
- 初出の章: 第16章
target modules
- ひとことで言うと: LoRAなどのPEFT手法において、アダプターを適用するモデル内の特定の層(モジュール)のことです。
- カテゴリ: ファインチューニング、LoRA
- 何に使うのか: モデルのどの部分を微調整するかを指定することで、効率的な学習と性能向上を図ります。
- よく混同される用語: LoRA
- 初出の章: 第13章
TGI
- ひとことで言うと: 「Text Generation Inference」の略で、Hugging Faceが開発した、大規模言語モデル(LLM)を効率的にサービングするための推論サーバーです。
- カテゴリ: 推論ランタイム
- 何に使うのか: 高いスループットと低いレイテンシーで、LLMを本番環境で運用するために使われます。
- よく混同される用語: vLLM, transformers
- 初出の章: 第9章
TensorRT engine
- ひとことで言うと: NVIDIAのTensorRTという最適化ツールによって、特定のGPU向けに最適化された推論エンジンファイルです。
- カテゴリ: モデルファイル形式
- 何に使うのか: NVIDIA GPU上でLLMの推論を最大限に高速化するために使われます。
- よく混同される用語: ONNX, GGUF
- 初出の章: 第4章
TensorRT-LLM
- ひとことで言うと: NVIDIAが開発した、大規模言語モデル(LLM)の推論をNVIDIA GPU上で最大限に高速化するためのライブラリです。
- カテゴリ: 推論ランタイム
- 何に使うのか: LLMの推論性能を最適化し、高いスループットと低いレイテンシーを実現します。
- よく混同される用語: vLLM, TGI
- 初出の章: 第9章
ternary
- ひとことで言うと: 情報を3つの値(例: -1, 0, 1)で表現する、低ビット化の手法です。
- カテゴリ: 量子化、低ビット化
- 何に使うのか: モデルサイズと計算量を削減し、特にBitNetのような極端な低ビットモデルで利用されます。
- よく混同される用語: 1-bit, BitNet
- 初出の章: 第11章
throughput
- ひとことで言うと: 単位時間あたりに処理できるリクエストやデータの量のことです。
- カテゴリ: 性能指標
- 何に使うのか: LLMの推論サーバーの処理能力を示す指標で、高いほど多くのユーザーやリクエストを同時に処理できます。
- よく混同される用語: latency
- 初出の章: 第9章
tokenizer
- ひとことで言うと: テキストを、モデルが理解できる小さな単位(トークン)に分割するプログラムです。
- カテゴリ: 自然言語処理
- 何に使うのか: LLMにテキストを入力する前処理として、またモデルが出力したトークンを元のテキストに戻す後処理として使われます。
- よく混同される用語: vocabulary
- 初出の章: 第1章
- ひとことで言うと: 大規模言語モデル(LLM)が、特定のタスクを実行するために外部のツール(API、関数など)を呼び出す能力です。
- カテゴリ: LLM応用、エージェント
- 何に使うのか: LLMがリアルタイム情報にアクセスしたり、計算を実行したり、外部システムを操作したりすることを可能にします。
- よく混同される用語: function calling, agent
- 初出の章: 第20章
torchtune
- ひとことで言うと: PyTorchベースで、大規模言語モデル(LLM)のファインチューニングを効率的に行うためのライブラリです。
- カテゴリ: 学習ツール
- 何に使うのか: LoRAなどのPEFT手法を使って、LLMを特定のタスクやデータセットに適応させる際に利用します。
- よく混同される用語: PEFT, accelerate
- 初出の章: 第14章
training
- ひとことで言うと: モデルにデータを与えて学習させ、特定のタスクを実行できるように調整するプロセスです。
- カテゴリ: LLMの学習
- 何に使うのか: モデルが知識を獲得し、パターンを認識し、予測や生成ができるようにするために行われます。
- よく混同される用語: fine-tuning, inference
- 初出の章: 第1章
- ひとことで言うと: Hugging Faceが提供する、Transformerベースのモデル(LLMなど)を簡単に利用・学習できるPythonライブラリです。
- カテゴリ: ライブラリ
- 何に使うのか: 事前学習済みモデルのダウンロード、ファインチューニング、推論など、LLM開発の主要なタスクをサポートします。
- よく混同される用語: Hugging Face, llama.cpp
- 初出の章: 第3章
unsloth
- ひとことで言うと: LoRAなどのファインチューニングを高速化し、メモリ効率を向上させるためのライブラリです。
- カテゴリ: 学習ツール
- 何に使うのか: 大規模LLMのファインチューニングを、より少ないGPUメモリと時間で実行できるようにします。
- よく混同される用語: PEFT, accelerate
- 初出の章: 第14章
vector DB
- ひとことで言うと: テキストの「embedding」(数値ベクトル)を効率的に保存し、類似度に基づいて高速に検索できるデータベースです。
- カテゴリ: RAG、データベース
- 何に使うのか: RAGシステムにおいて、ユーザーの質問と意味的に関連性の高い文書を大量のデータの中から素早く探し出すために使われます。
- よく混同される用語: embedding, RAG
- 初出の章: 第19章
verifier
- ひとことで言うと: speculative decodingにおいて、ドラフトモデルが生成したテキストが正しいかどうかを検証する、高精度なメインモデルです。
- カテゴリ: 推論最適化
- 何に使うのか: ドラフトモデルの高速性と、メインモデルの精度を組み合わせることで、高速かつ正確なテキスト生成を実現します。
- よく混同される用語: speculative decoding, draft model
- 初出の章: 第16章
vLLM
- ひとことで言うと: 大規模言語モデル(LLM)のサービング(提供)に特化した、高性能な推論エンジンです。
- カテゴリ: 推論ランタイム
- 何に使うのか: paged attentionなどの技術を使って、高いスループットと低いレイテンシーでLLMを運用し、多くのユーザーにサービスを提供します。
- よく混同される用語: llama.cpp, TGI, transformers
- 初出の章: 第9章
vocab
- ひとことで言うと: 「vocabulary」の略で、トークナイザーが認識できるすべての単語やサブワードのリストです。
- カテゴリ: 自然言語処理
- 何に使うのか: テキストをトークンに変換する際の辞書として機能し、モデルがテキストを数値として処理できるようにします。
- よく混同される用語: tokenizer, context length
- 初出の章: 第2章
weights
- ひとことで言うと: モデルの学習によって調整される、内部の数値データのことです。
- カテゴリ: モデル構造
- 何に使うのか: モデルが入力データからパターンを学習し、予測や生成を行うための「知識」が詰まっています。
- よく混同される用語: parameters, model
- 初出の章: 第1章
workflow
- ひとことで言うと: 特定の目標を達成するために、一連のタスクやステップが順序立てて実行されるプロセスのことです。
- カテゴリ: AIシステム、エージェント
- 何に使うのか: エージェントシステムにおいて、LLMが複数のツールを使い、複雑なタスクを段階的に解決していく手順