第2章: RAGの歴史 — TF-IDFからContextual Retrievalまで | RAG / ベクトル検索 Deep Dive

3つの系譜が合流する道のり

RAGという技術は突然現れたわけではなく、50年以上にわたる情報検索と自然言語処理の系譜が、2020年のある論文で合流したものです。その系譜は大きく3本に分けられます。

graph TB
  subgraph A[疎ベクトル系譜]
    A1[TF-IDF 1972] --> A2[BM25 1994] --> A3[SPLADE 2021]
  end
  subgraph B[分散表現系譜]
    B1[Word2Vec 2013] --> B2[BERT 2018] --> B3[Sentence-BERT 2019] --> B4[DPR 2020]
  end
  subgraph C[近似最近傍系譜]
    C1[LSH 1998] --> C2[Annoy 2015] --> C3[HNSW 2016] --> C4[Faiss 2017]
  end
  A3 --> D[RAG 2020]
  B4 --> D
  C4 --> D
  D --> E[Advanced RAG 2024-]

  style D fill:#f97316,stroke:#ea580c,color:#fff
  style E fill:#14b8a6,stroke:#0d9488,color:#fff

RAGの3つの系譜: 疎ベクトル検索・分散表現・近似最近傍探索が2020年のRAG論文で合流。2024年以降は高度化の時代へ

フェーズ I: 疎ベクトル検索時代（1970s〜2000s）

情報検索の歴史は「単語の出現頻度で文書をスコアリングする」アイデアから始まりました。 1972年、英国の情報学者Karen Spärck Jonesが発表した論文で提唱されたTF-IDF（Term Frequency × Inverse Document Frequency）は、「ある単語がその文書に多く出る（TF）」かつ「その単語が他の文書に少ない（IDF）」ほど重要、というシンプルで強力な発想でした。

1994年、Stephen RobertsonらはBM25（Best Match 25、Okapi BM25）を発表。 TF-IDFを確率論的に拡張し、文書長の正規化と飽和関数を加えたこのアルゴリズムは、30年以上経った今も多くの検索エンジンで現役です。 ElasticsearchやLucene、OpenSearchは全てBM25を基盤としており、後述するハイブリッド検索で今も重要な役割を果たしています。

フェーズ II: 分散表現の誕生（2013〜2017）

2013年、Google のTomas Mikolovらが発表したWord2Vecは、「単語を連続的な数百次元のベクトルで表現する」という発想を主流化させました。「king − man + woman ≒ queen」という有名な関係式が示すように、単語の意味を代数演算できるベクトル空間が実現したのです。

2017年のTransformer論文（"Attention Is All You Need"）、そして2018年のBERT（Bidirectional Encoder Representations from Transformers）は、文脈を考慮した単語表現を生成する文脈依存埋め込みを実現しました。同じ「bank」でも「river bank（川岸）」と「investment bank（銀行）」で異なるベクトルになります。

2019年、Nils ReimersらのSentence-BERTが、BERTを文埋め込み生成に特化させるファインチューニング手法を提示。これにより、文書全体を1本のベクトルで表現し、類似度で検索するという「Dense Retrieval」の基盤が完成しました。

フェーズ III: 近似最近傍探索の爆発（1998〜2017）

数百万〜数億のベクトルから「最も近いK件」を取り出すのは、厳密計算だと O(N) の時間がかかり非現実的です。これを高速化するANN（Approximate Nearest Neighbor、近似最近傍）アルゴリズムの進化がRAGを実用可能にしました。

年	アルゴリズム	貢献
1998	LSH (Locality Sensitive Hashing)	ハッシュによる近似。IndykとMotwaniの論文
2011	IVF / PQ (Product Quantization)	クラスタリングと量子化による圧縮（Jégou）
2015	Annoy (Spotify)	Erik Bernhardssonによるツリーベース実装
2016	HNSW	Malkov & Yashunin。多層グラフで革命的な速度
2017	Faiss	Meta AIによる大規模ANNライブラリ決定版

特にHNSW（Hierarchical Navigable Small World）は、レイヤー構造のグラフと「小世界ネットワーク」の特性を組み合わせて、数百万件でも数ミリ秒でTop-K検索を実現する画期的なアルゴリズムです。現在の主要ベクトルDB（Pinecone、Weaviate、Qdrant、Milvus、pgvector）はすべてHNSWを標準装備しています（第4章で詳しく解説）。

2020年、合流の瞬間 — DPRとRAG論文

2020年4月、Facebook AI ResearchのVladimir KarpukhinらがDPR（Dense Passage Retrieval）を発表。 BERTベースのBi-encoderで質問と文書を独立に埋め込み、ドット積で類似度計算するシンプルな構成が、従来のBM25ベースのOpen-Domain QAシステムを圧倒しました。

そして同年5月、同じくFacebook AIのPatrick Lewisらが "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" を発表。DPR（検索）とBART（生成）をend-to-endで学習し、Open-Domain QAでSOTAを達成しました。論文のタイトルに冠された「Retrieval-Augmented Generation（RAG）」という用語が、現在まで使われています。

2022〜2023年、商用化爆発 — ChatGPTとLangChain

2022年11月のChatGPT公開は、RAGの需要を一気に引き上げました。「ChatGPTに自社文書で答えさせたい」というニーズが爆発し、これに応えるエコシステムが短期間で形成されました。

2022年10月

LangChain登場

Harrison Chaseが発表。RAGパイプラインをLEGOブロック的に組み立てるフレームワークとして瞬く間に普及

2022年11月

LlamaIndex（旧GPT Index）

Jerry Liuが発表。データ取込・インデックス構築に特化した兄弟プロジェクト

2022年11月

ChatGPT公開

公開5日で100万ユーザー、2ヶ月で1億ユーザー。企業のRAG需要が爆発

2022年12月

OpenAI text-embedding-ada-002

1536次元、事実上の標準埋め込みモデル

2022年

pgvector公開

Andrew KaneによるPostgreSQL拡張。Supabase/Neon/AWS RDSで標準搭載へ

2023年4月

Pinecone Series B

a16zリードで1億ドル調達、評価額7.5億ドル。ベクトルDB市場の象徴的ラウンド

2023年6月

Databricks × MosaicML買収

13億ドル買収。エンタープライズRAG基盤の覇権争いが明確化

2023年12月

Gao et al. RAGサーベイ

Naive / Advanced / Modular の3パラダイムを整理し、以降のRAG設計論の基礎となる

この時期、ベクトルDB市場は競争が激化しました。Pinecone（2019創業、フルマネージド）、Weaviate（2019、オランダ発OSS）、Qdrant（2021、Rust製）、Chroma（2022、開発者体験重視）、Milvus（2017、大規模向け）などが出揃い、pgvectorはPostgreSQLの拡張として静かに普及していきました。

2024〜2026年、高度化の時代 — ナイーブRAGを超える

「文書をチャンク化して埋め込み、類似検索してLLMに渡す」というナイーブRAGの限界が広く認識され、 2024年以降は精度・効率・推論能力を大幅に引き上げる高度化パターンが次々と登場しました。

2023年10月

Self-RAG (Asai et al., UW/AllenAI)

LLMが検索要否を自律判定し、取得結果を自己批判する反射トークンを導入

2024年1月

Corrective RAG (CRAG)

検索結果を評価し、低品質ならWeb再検索やクエリ書換でフォールバック

2024年1月

OpenAI text-embedding-3

Matryoshka対応で次元を切り詰め可能に。コストと精度のトレードオフを動的調整

2024年2月

GraphRAG (Microsoft)

Knowledge Graph + Leidenコミュニティ検出 + Map-Reduce要約で「グローバルQA」を実現

2024年9月

Contextual Retrieval (Anthropic)

各チャンクに文脈プレフィックスを付与し、埋め込み+BM25+Rerankで失敗率を最大67%削減

2024年10月

LightRAG (HKU)

Graph+Vectorのデュアル検索。GraphRAG比でトークン消費を約6000倍効率化

2025年

日本語モデル急進化

Ruri-v3（ModernBERT、JMTEB 77.2）、Sarashina-Embedding-v2、japanese-reranker v2登場

2026年

Agentic RAG / Multimodal RAG

LangGraph等でエージェント化。ColPali/ColQwenでVision-based RAG、MCPサーバ化が進む

押さえるべき5つの転換点

50年の系譜を振り返ると、特に重要な転換点が5つあります。これらを押さえれば、RAGの設計判断の背後にある「なぜ」がわかります。

年	転換点	意義
1994	BM25	疎ベクトル検索の完成形。現代ハイブリッド検索の片翼
2013	Word2Vec	「意味を連続ベクトルで表す」というパラダイムを確立
2016	HNSW	数億件を低レイテンシで検索可能にし、Vector DB商用化の技術基盤に
2020	DPR + RAG論文	LLMと検索の結合を学術的に定式化。現行RAGの祖
2024	GraphRAG / Contextual Retrieval	ナイーブなチャンク+類似検索の限界を超える「構造化」「文脈付与」の本命化

次章では、RAGの最も基礎的な要素技術であるEmbeddingsを深掘りします。「意味をベクトルで表す」とは具体的に何を意味するのか、コサイン類似度はなぜ使われるのか、日本語でどのモデルを選ぶべきか — すべて原理から解説していきます。

理解度チェック

問題 0 / 50%

RAGという用語が初めて使われた論文の筆頭著者と発表年として正しいものはどれですか？

キーボード: 1〜4 で選択、Enter で回答