3つの系譜が合流する道のり
RAGという技術は突然現れたわけではなく、50年以上にわたる情報検索と自然言語処理の系譜が、2020年のある論文で合流したものです。 その系譜は大きく3本に分けられます。
graph TB
subgraph A[疎ベクトル系譜]
A1[TF-IDF 1972] --> A2[BM25 1994] --> A3[SPLADE 2021]
end
subgraph B[分散表現系譜]
B1[Word2Vec 2013] --> B2[BERT 2018] --> B3[Sentence-BERT 2019] --> B4[DPR 2020]
end
subgraph C[近似最近傍系譜]
C1[LSH 1998] --> C2[Annoy 2015] --> C3[HNSW 2016] --> C4[Faiss 2017]
end
A3 --> D[RAG 2020]
B4 --> D
C4 --> D
D --> E[Advanced RAG 2024-]
style D fill:#f97316,stroke:#ea580c,color:#fff
style E fill:#14b8a6,stroke:#0d9488,color:#fffフェーズ I: 疎ベクトル検索時代(1970s〜2000s)
情報検索の歴史は「単語の出現頻度で文書をスコアリングする」アイデアから始まりました。 1972年、英国の情報学者Karen Spärck Jonesが発表した論文で提唱されたTF-IDF(Term Frequency × Inverse Document Frequency)は、 「ある単語がその文書に多く出る(TF)」かつ「その単語が他の文書に少ない(IDF)」ほど重要、というシンプルで強力な発想でした。
1994年、Stephen RobertsonらはBM25(Best Match 25、Okapi BM25)を発表。 TF-IDFを確率論的に拡張し、文書長の正規化と飽和関数を加えたこのアルゴリズムは、30年以上経った今も多くの検索エンジンで現役です。 ElasticsearchやLucene、OpenSearchは全てBM25を基盤としており、後述するハイブリッド検索で今も重要な役割を果たしています。
フェーズ II: 分散表現の誕生(2013〜2017)
2013年、Google のTomas Mikolovらが発表したWord2Vecは、 「単語を連続的な数百次元のベクトルで表現する」という発想を主流化させました。 「king − man + woman ≒ queen」という有名な関係式が示すように、単語の意味を代数演算できるベクトル空間が実現したのです。
2017年のTransformer論文("Attention Is All You Need")、そして2018年のBERT(Bidirectional Encoder Representations from Transformers)は、 文脈を考慮した単語表現を生成する文脈依存埋め込みを実現しました。 同じ「bank」でも「river bank(川岸)」と「investment bank(銀行)」で異なるベクトルになります。
2019年、Nils ReimersらのSentence-BERTが、BERTを文埋め込み生成に特化させるファインチューニング手法を提示。 これにより、文書全体を1本のベクトルで表現し、類似度で検索するという「Dense Retrieval」の基盤が完成しました。
フェーズ III: 近似最近傍探索の爆発(1998〜2017)
数百万〜数億のベクトルから「最も近いK件」を取り出すのは、厳密計算だと O(N) の時間がかかり非現実的です。 これを高速化するANN(Approximate Nearest Neighbor、近似最近傍)アルゴリズムの進化がRAGを実用可能にしました。
| 年 | アルゴリズム | 貢献 |
|---|---|---|
| 1998 | LSH (Locality Sensitive Hashing) | ハッシュによる近似。IndykとMotwaniの論文 |
| 2011 | IVF / PQ (Product Quantization) | クラスタリングと量子化による圧縮(Jégou) |
| 2015 | Annoy (Spotify) | Erik Bernhardssonによるツリーベース実装 |
| 2016 | HNSW | Malkov & Yashunin。多層グラフで革命的な速度 |
| 2017 | Faiss | Meta AIによる大規模ANNライブラリ決定版 |
特にHNSW(Hierarchical Navigable Small World)は、レイヤー構造のグラフと「小世界ネットワーク」の特性を組み合わせて、 数百万件でも数ミリ秒でTop-K検索を実現する画期的なアルゴリズムです。 現在の主要ベクトルDB(Pinecone、Weaviate、Qdrant、Milvus、pgvector)はすべてHNSWを標準装備しています(第4章で詳しく解説)。
2020年、合流の瞬間 — DPRとRAG論文
2020年4月、Facebook AI ResearchのVladimir KarpukhinらがDPR(Dense Passage Retrieval)を発表。 BERTベースのBi-encoderで質問と文書を独立に埋め込み、ドット積で類似度計算するシンプルな構成が、 従来のBM25ベースのOpen-Domain QAシステムを圧倒しました。
そして同年5月、同じくFacebook AIのPatrick Lewisらが "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" を発表。DPR(検索)とBART(生成)をend-to-endで学習し、Open-Domain QAでSOTAを達成しました。 論文のタイトルに冠された「Retrieval-Augmented Generation(RAG)」という用語が、現在まで使われています。
2022〜2023年、商用化爆発 — ChatGPTとLangChain
2022年11月のChatGPT公開は、RAGの需要を一気に引き上げました。 「ChatGPTに自社文書で答えさせたい」というニーズが爆発し、これに応えるエコシステムが短期間で形成されました。
LangChain登場
Harrison Chaseが発表。RAGパイプラインをLEGOブロック的に組み立てるフレームワークとして瞬く間に普及
LlamaIndex(旧GPT Index)
Jerry Liuが発表。データ取込・インデックス構築に特化した兄弟プロジェクト
ChatGPT公開
公開5日で100万ユーザー、2ヶ月で1億ユーザー。企業のRAG需要が爆発
OpenAI text-embedding-ada-002
1536次元、事実上の標準埋め込みモデル
pgvector公開
Andrew KaneによるPostgreSQL拡張。Supabase/Neon/AWS RDSで標準搭載へ
Pinecone Series B
a16zリードで1億ドル調達、評価額7.5億ドル。ベクトルDB市場の象徴的ラウンド
Databricks × MosaicML買収
13億ドル買収。エンタープライズRAG基盤の覇権争いが明確化
Gao et al. RAGサーベイ
Naive / Advanced / Modular の3パラダイムを整理し、以降のRAG設計論の基礎となる
この時期、ベクトルDB市場は競争が激化しました。Pinecone(2019創業、フルマネージド)、Weaviate(2019、オランダ発OSS)、Qdrant(2021、Rust製)、Chroma(2022、開発者体験重視)、Milvus(2017、大規模向け)などが出揃い、pgvectorはPostgreSQLの拡張として静かに普及していきました。
2024〜2026年、高度化の時代 — ナイーブRAGを超える
「文書をチャンク化して埋め込み、類似検索してLLMに渡す」というナイーブRAGの限界が広く認識され、 2024年以降は精度・効率・推論能力を大幅に引き上げる高度化パターンが次々と登場しました。
Self-RAG (Asai et al., UW/AllenAI)
LLMが検索要否を自律判定し、取得結果を自己批判する反射トークンを導入
Corrective RAG (CRAG)
検索結果を評価し、低品質ならWeb再検索やクエリ書換でフォールバック
OpenAI text-embedding-3
Matryoshka対応で次元を切り詰め可能に。コストと精度のトレードオフを動的調整
GraphRAG (Microsoft)
Knowledge Graph + Leidenコミュニティ検出 + Map-Reduce要約で「グローバルQA」を実現
Contextual Retrieval (Anthropic)
各チャンクに文脈プレフィックスを付与し、埋め込み+BM25+Rerankで失敗率を最大67%削減
LightRAG (HKU)
Graph+Vectorのデュアル検索。GraphRAG比でトークン消費を約6000倍効率化
日本語モデル急進化
Ruri-v3(ModernBERT、JMTEB 77.2)、Sarashina-Embedding-v2、japanese-reranker v2登場
Agentic RAG / Multimodal RAG
LangGraph等でエージェント化。ColPali/ColQwenでVision-based RAG、MCPサーバ化が進む
押さえるべき5つの転換点
50年の系譜を振り返ると、特に重要な転換点が5つあります。これらを押さえれば、RAGの設計判断の背後にある「なぜ」がわかります。
| 年 | 転換点 | 意義 |
|---|---|---|
| 1994 | BM25 | 疎ベクトル検索の完成形。現代ハイブリッド検索の片翼 |
| 2013 | Word2Vec | 「意味を連続ベクトルで表す」というパラダイムを確立 |
| 2016 | HNSW | 数億件を低レイテンシで検索可能にし、Vector DB商用化の技術基盤に |
| 2020 | DPR + RAG論文 | LLMと検索の結合を学術的に定式化。現行RAGの祖 |
| 2024 | GraphRAG / Contextual Retrieval | ナイーブなチャンク+類似検索の限界を超える「構造化」「文脈付与」の本命化 |
次章では、RAGの最も基礎的な要素技術であるEmbeddingsを深掘りします。 「意味をベクトルで表す」とは具体的に何を意味するのか、コサイン類似度はなぜ使われるのか、日本語でどのモデルを選ぶべきか — すべて原理から解説していきます。
理解度チェック
RAGという用語が初めて使われた論文の筆頭著者と発表年として正しいものはどれですか?
キーボード: 1〜4 で選択、Enter で回答