第1章: RAGとは何か — LLMの限界と検索拡張の本質 | RAG / ベクトル検索 Deep Dive

LLMの3つの根本的限界

ChatGPT登場以降、大規模言語モデル（LLM）は驚異的な進化を遂げましたが、実務に投入すると避けて通れない3つの限界が立ちはだかります。これらは性能を上げるだけでは解決できない構造的な問題です。

限界①: 知識カットオフ

LLMは訓練データのスナップショットで凍結された知識しか持ちません。 GPT-5やClaude Opus 4.6は学習後に起きた出来事、たとえば「昨日開催されたカンファレンスの発表内容」や「先月リリースされた自社の新機能」を知ることができません。ファインチューニングで知識を更新することは可能ですが、日次・時間次の頻度で再学習するのは現実的ではありません。

限界②: ハルシネーション（幻覚）

LLMは「もっともらしい嘘」を自信満々に生成することがあります。これは設計上のバグではなく、「次トークン予測」という本質的な動作原理から生じる避けがたい特性です。存在しない論文を引用したり、APIにないメソッドを呼び出したり、架空の判例を作り出したりするのは有名な失敗例です。

限界③: 出典不提示

LLMの回答は訓練データから「蒸留」された重みの確率分布から生まれるため、「この回答のソースはこの文書のこの段落」と指し示すことができません。医療・法務・金融といった高リスク領域で、根拠のない回答は意思決定に使えません。社内ナレッジ検索においても、「どの規程のどの条項に基づく回答か」が示されなければ、ユーザーは検証不能な情報を盲信することになります。

RAGの本質 — パラメトリック記憶とノンパラメトリック記憶の分離

RAG（Retrieval-Augmented Generation、検索拡張生成）は、2020年にFacebook AI Researchの Patrick Lewis らが発表した論文 "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" で提唱された設計思想です。核心は次の一点に集約されます。

実装としては単純です。ユーザーのクエリをまず知識ベース（ベクトルDBや全文検索インデックス）で検索し、関連する文書チャンクを取得、それらをプロンプトの文脈としてLLMに渡して回答を生成させます。この「検索して、拡張して、生成する」の3段階がRAGという名称の由来です。

graph LR
  Q[ユーザークエリ\n例: 返品ポリシーは] --> R[Retriever\nベクトルDB + BM25]
  KB[(知識ベース\nチャンク化済み文書)] --> R
  R --> C[関連チャンク\nTop-K件]
  C --> P[拡張プロンプト\nコンテキスト + クエリ]
  P --> L[LLM\nGenerator]
  L --> A[回答\n+ 引用元]

  style Q fill:#3b82f6,stroke:#1d4ed8,color:#fff
  style R fill:#8b5cf6,stroke:#6d28d9,color:#fff
  style KB fill:#ec4899,stroke:#be185d,color:#fff
  style L fill:#f97316,stroke:#ea580c,color:#fff
  style A fill:#14b8a6,stroke:#0d9488,color:#fff

RAGの基本フロー: クエリ → 検索 → 拡張 → 生成。ノンパラメトリック記憶を外部化することで知識の更新・引用・検証が可能になる

RAGが解く3つの限界

先に挙げたLLMの3つの限界に、RAGはそれぞれ明快な解を与えます。

LLMの限界	RAGによる解決
知識カットオフ	ベクトルDBに最新文書を投入するだけで知識更新。モデル再学習不要
ハルシネーション	検索で取得した文書を根拠として回答。文書にない情報は「分からない」と答えさせる
出典不提示	取得したチャンクのメタデータ（URL・文書ID・ページ番号）を回答と一緒に返せる

もちろんRAGは万能ではありません。検索の品質が悪ければ無関係な情報がLLMに渡され、かえって品質が下がります。「RAGを導入したのに精度が出ない」という相談の大半は、検索レイヤーの設計不足に起因します。本シリーズの第3章以降で、検索品質を上げるための具体的な手法を徹底解説します。

エンタープライズでの採用状況 — 51%が導入する標準技術

RAGはもはや研究トピックではなく、エンタープライズAIの標準構成要素です。 Menlo Venturesの2024年調査によると、エンタープライズにおけるRAG採用率は前年の31%から51%へ急伸しました。組織のAIユースケースの30〜60%でRAGが使われているとされています。

指標	数値	出典
エンタープライズRAG採用率（2024）	51%（前年31%）	Menlo Ventures
RAG市場規模（2024）	12億ドル	Grand View Research
RAG市場予測（2030）	110億ドル（CAGR 49.1%）	Grand View Research
ベクトルDB市場予測（2034）	151億ドル	Market.us
エンタープライズGenAI支出（2025）	6,440億ドル	Gartner

代表的な採用事例として、Morgan Stanleyはリサーチレポート35万件をRAGでインデックス化し、ウェルスアドバイザーの98%が日常的に利用しています。 Perplexity AIは評価額200億ドル規模のRAGネイティブ検索として急成長し、 Harvey（法務AI、評価額110億ドル）は米国AmLaw 100の50社に導入されています。日本でもLINEヤフーのSeekAI、NTTデータ・NTT東日本、日立ソリューションズなどが大規模にRAGを実装しています。

RAG vs Long-context vs Fine-tuning — いつ何を使うべきか

2024〜2026年にかけて、Gemini 1.5/2.5（1M〜2Mトークン）、Claude（200K+）、GPT-5（1M）など長文コンテキスト対応LLMが台頭しました。「RAGはもう不要では？」という議論も起きましたが、結論としてはRAGとLong-contextは補完関係にあり、用途による使い分けが実務的です。

手法	強み	弱み	使うべきケース
RAG	動的データに強い／引用可能／コスト効率	検索品質がボトルネック／パイプライン複雑	頻繁に更新される大規模KB、引用必須、コスト重視
Long-context LLM	文書横断の深い推論／単一コーパス把握	Lost-in-the-middle劣化／トークンコスト高	500ページ以下の固定文書、深い推論が必要
Fine-tuning	スタイル・形式・タスク特化	知識更新のたびに再学習／事実更新不向き	トーン・口調・出力形式の学習。知識注入ではない
Prompt stuffing	実装最簡単	トークン数で即破綻／再現性低	PoC・数ページ程度の小規模

実務で最も強いのはハイブリッド構成です。RAGで関連文書を数百〜数千ページ規模から絞り込み、そこからLong-context LLMで深く推論する。この組み合わせにより、コストを抑えつつ精度と推論深度を両立できます。

本シリーズで学ぶこと — 全10章のロードマップ

本シリーズは既存の LLM Deep Dive シリーズの発展編として、検索拡張生成を基礎から実運用まで10章で徹底解剖します。

graph TD
  C1[第1章\nRAGとは何か] --> C2[第2章\nRAGの歴史]
  C2 --> C3[第3章\nEmbeddingsの原理]
  C3 --> C4[第4章\nANNアルゴリズム]
  C4 --> C5[第5章\nベクトルDB比較]
  C5 --> C6[第6章\nRAGパイプライン]
  C6 --> C7[第7章\nハイブリッド検索とRerank]
  C7 --> C8[第8章\nRAG評価]
  C8 --> C9[第9章\nAdvanced RAG]
  C9 --> C10[第10章\n本番運用と未来]

  style C1 fill:#3b82f6,stroke:#1d4ed8,color:#fff
  style C2 fill:#8b5cf6,stroke:#6d28d9,color:#fff
  style C3 fill:#8b5cf6,stroke:#6d28d9,color:#fff
  style C4 fill:#8b5cf6,stroke:#6d28d9,color:#fff
  style C5 fill:#f97316,stroke:#ea580c,color:#fff
  style C6 fill:#f97316,stroke:#ea580c,color:#fff
  style C7 fill:#f97316,stroke:#ea580c,color:#fff
  style C8 fill:#14b8a6,stroke:#0d9488,color:#fff
  style C9 fill:#14b8a6,stroke:#0d9488,color:#fff
  style C10 fill:#14b8a6,stroke:#0d9488,color:#fff

RAG Deep Dive 全10章のロードマップ: 基礎理論（青）→ 要素技術（紫）→ 実装と応用（橙）→ 評価と未来（緑）

第2〜4章（要素技術）では、TF-IDFから最新のContextual Retrievalまでの系譜、Embeddingの原理、HNSWをはじめとするANNアルゴリズムを深掘りします。数式やアルゴリズムの内部構造まで踏み込むので、「なぜこの選択が効くのか」を原理から理解できます。

第5〜7章（実装）では、pgvectorの本番運用、RAGパイプライン設計、ハイブリッド検索とRerankといった、実際にコードを書くときに必要な知識を扱います。 pgvector 0.8の新機能、Anthropic Contextual Retrievalの具体実装、日本語特有の形態素解析まで網羅します。

第8〜10章（評価・応用・未来）では、Ragasによる評価、GraphRAG・Self-RAG・Agentic RAGといった高度パターン、そして2026年時点の推奨スタック・事例・学習ロードマップで締めくくります。

各章の末尾には理解度チェック用のクイズが用意されています。まずはこの第1章のクイズに挑戦してみましょう。

理解度チェック

問題 0 / 50%

RAGの核心思想として最も正確な表現はどれですか？

キーボード: 1〜4 で選択、Enter で回答