ここまで9章にわたって学んだ要素技術を、実際の本番構成としてまとめます。 2026年時点の日本語RAGで、コスト・精度・運用のバランスが取れた鉄板スタックです。

graph TB
  subgraph Ingestion[取り込み]
    L[Loader\n Docling/LlamaParse]
    C[Chunker\n Recursive+Sudachi]
    E[Embedding\n Ruri-v3-310m]
    L --> C --> E
  end
  subgraph Storage[ストレージ]
    P[pgvector\n HNSW]
    B[BM25\n Sudachi tokenize]
  end
  subgraph Query[クエリ処理]
    QT[Query Transform\n HyDE]
    D[Dense検索]
    S[Sparse検索]
    RRF[RRF融合]
    RR[Reranker\n japanese-reranker-v2]
  end
  subgraph Gen[生成]
    G[LLM\n Claude Opus/GPT-5]
    O[Phoenix\n観測]
  end

  E --> P
  C --> B
  QT --> D
  QT --> S
  D --> RRF
  S --> RRF
  RRF --> RR --> G
  G --> O

  style E fill:#8b5cf6,stroke:#6d28d9,color:#fff
  style RRF fill:#f97316,stroke:#ea580c,color:#fff
  style G fill:#14b8a6,stroke:#0d9488,color:#fff
2026年の日本語RAG鉄板スタック。各層で複数の選択肢があるが、この構成は多くの案件で無難に動く
推奨 代替
ドキュメント取込 Docling (IBM, OSS, OCR強い) LlamaParse (有料・最高精度), Unstructured
Chunking Recursive 512/100 + Sudachi境界 Semantic, Contextual (Anthropic)
Embedding Ruri-v3-310m (JMTEB 77.2) OpenAI text-embedding-3-large, BGE-M3
Vector DB pgvector (〜1000万) / pgvectorscale Qdrant (OSS最速), Pinecone (運用ゼロ)
Sparse検索 BM25 + Sudachi tokenize SPLADE-ja
融合 RRF k=60 Linear combination(ラベル要)
Reranker japanese-reranker-base-v2 Cohere Rerank v4 Pro, Jina v3
オーケストレーション LlamaIndex + LangGraph Haystack, Vercel AI SDK
LLM Claude Opus 4.6 / GPT-5 / Gemini 2.5 Llama 3.3, DeepSeek, ローカルSLM
評価 Ragas(開発)+ ARES(本番前) DeepEval, TruLens
観測 Phoenix (OSS) / LangSmith Maxim AI, Datadog

代表事例 — 世界と日本のRAG最前線

Perplexity AI — RAGネイティブ検索(評価額200億ドル)

2022年創業、CEO Aravind Srinivas。Web検索→生成のRAGアーキテクチャを標準化した先駆者。 2025年末時点でMAU 45M、ARR $500M超(前年比+335%)、月間クエリ780M件。 「検索エンジンの代替」というポジショニングで急成長し、2025年9月に評価額$20Bに到達。

Morgan Stanley — 350,000ドキュメントのRAG化

OpenAI × GPT-4でリサーチレポート4,000万語をインデックス化。 ウェルスアドバイザーの98%が日常的に使用という驚異的な採用率を達成。 7,000問のテストセット → 10万ドキュメントへスケール、OpenAIとの共同でハルシネーション評価を徹底。 派生プロダクトのAskResearchGPTも展開。

Harvey — 法務AIの支配的プラットフォーム(評価額110億ドル)

2026年3月時点で評価額$11B($200M調達)、AmLaw 100の50社に導入、1,300組織10万弁護士が利用。 ARR $190M(2026年1月)、2025年だけで$760M調達(Series D→E→F→$11B)。 M&A、デューデリ、契約ドラフトのカスタムエージェントが2.5万件超。法務RAGの勝者。

Klarna — カスタマーサポートの2/3を自動化

OpenAI APIベースで月230万会話を処理、フルタイムエージェント700人分の業務を代替。 解決時間を11分→2分未満に、再問合せを25%削減、年間$40M利益改善。 2025年には「AIファーストの見直し」で人間ハイブリッドへ回帰したが、RAGの実務価値を最も明確に示した事例。

日本事例 — LINEヤフー・NTT・日立

  • LINEヤフー SeekAI: 全社員向け社内情報検索RAG。自動評価パイプラインで複数LLM相互評価
  • NTT-AT: 業務文書RAG社内コンペで精度95%達成
  • NTTデータ: 業務領域ごとに参照ファイル分割で精度向上の知見を公開
  • 日立ソリューションズ × 北野建設: 建設業向けRAG実業務検証(2024/11-2025/3)
  • アサヒビール、朝日生命、JR東日本、AGC、東京メトロ、出光興産、東京ガス 等

Long-context vs RAG — 2026年の決着

Gemini 2.5/3 Pro(1Mトークン)、Claude Opus 4.6(200K+)、GPT-5(1M)といった長文コンテキストLLMの台頭で、 「RAGはもう不要?」という議論が起きました。 2026年時点の実務的結論は次の通りです。

条件 推奨 理由
文書量 < 500ページ、固定 Long-context Prompt Cachingで安く、推論深い
文書量 > 500ページ、動的更新 RAG コスト・レイテンシで優位
引用・出典必須 RAG 取得chunkのメタデータを直接参照できる
マルチドキュメント横断の深い推論 ハイブリッド RAGで絞込→Long-contextで推論(最強)
コスト制約厳しい RAG 平均783 tok/req、~1秒応答でコスト効率

Multimodal RAG — 2026年の主戦場

2025〜2026年の最大のトレンドがMultimodal RAGです。 従来のテキストチャンク埋め込みでは、チャート・表・ダイアグラム・画像を含む文書で情報が抜け落ちていました。 これを解決する新手法が次々登場しています。

手法 仕組み 特徴
ColPali (2024) ビジョン言語モデルでページ画像を直接ColBERT風にパッチ埋め込み OCR不要、レイアウトも保持
ColQwen Qwen2.5-VLベースのColPali系 多言語・画像理解高精度
Voyage Multimodal 3 テキスト+画像を同一空間に 商用API、チャート・表に強い
Cohere Embed v4 1024次元マルチモーダル、128Kトークン 商用API、長文対応
Gemini Embedding 2 5モダリティ(text/image/video/audio/PDF)、100+言語 Google、3072次元

実用的な使い所は、財務レポート(表とグラフが多い)、技術ドキュメント(アーキテクチャ図)、 契約書(印鑑・署名の位置情報)、医療画像付きレポートなどです。 2026年後半には「テキストRAG」より「Multimodal RAG」が実装のデフォルトになる見通しです。

MCP × RAG — エージェント時代の統合

2025年に普及したModel Context Protocol (MCP)により、 RAGシステム自体がエージェントから呼び出せるツール(MCPサーバ)として提供される流れが加速しています。

Claude Desktop・Cursor・Claude Code・ChatGPT DesktopなどのクライアントがMCPサーバに接続し、 社内知識ベースや専門DBをツールとして使えます。 「RAGを組み込む」から「RAGをMCPサーバ化し、AIエージェントから利用させる」へのアーキテクチャ転換が進行中です。

学習ロードマップ — 7フェーズで習得する

フェーズ 期間目安 内容
Phase 1: 基礎 1〜2週間 Embeddings数学理解、MTEB/JMTEB、DeepLearning.AI「RAG」コース
Phase 2: 最小実装 1〜2週間 pgvector + OpenAI/Ruriで最小RAG、LlamaIndex Quickstart
Phase 3: Chunking 1週間 Recursive/Semantic/Contextual、Sudachi境界
Phase 4: Query変換・Rerank 1〜2週間 HyDE, Multi-query, Rerank追加, Hybrid (RRF)
Phase 5: 評価 1〜2週間 Ragas 4指標、合成データ、Phoenix観測
Phase 6: Advanced 2〜4週間 Contextual Retrieval, GraphRAG/LightRAG, Agentic RAG
Phase 7: 本番化 継続 コスト最適化、監視、A/Bテスト、セキュリティ

2026年以降の未来 — RAGの行き先

最後に、RAGが今後どこに向かうかを整理しておきましょう。3つの方向性があります。

① Agentic化の加速

静的な「検索→生成」から、エージェントが動的にツール選択・反復検索・自己批判する方向への移行が続きます。 LangGraph、Anthropic Agent SDK、OpenAI Assistants API、CrewAIなどが競合しつつ成熟します。

② Multimodal化の本格化

ColPali、Voyage Multimodal 3、Gemini Embedding 2が標準装備化し、 「テキストだけのRAG」は一部ユースケースに留まります。 2026年後半にはMultimodal RAGが実装のデフォルトになる見通しです。

③ MCP統合による分散化

RAGが「アプリ内コンポーネント」から「MCPサーバ」へと外出しされ、 複数のエージェントから共有知識ベースとして利用される形態が広がります。 「自社のRAGシステムを作る」から「自社のRAG MCPサーバを公開する」へ、という表現の変化が起きるでしょう。

シリーズの総括

10章にわたってRAGとベクトル検索を深掘りしてきました。 要素技術を振り返ると、BM25(1994)、Word2Vec(2013)、HNSW(2016)、BERT(2018)、そしてRAG論文(2020)という 50年の系譜が2020年代前半に合流し、ChatGPT時代のエンタープライズAIを支える基盤となりました。

2026年の今、RAGは「研究テーマ」ではなく「実務必須スキル」です。 採用率51%、市場規模110億ドル予測、Morgan Stanley・Harvey・Perplexityといった$10B超のプレイヤーの登場 — これらは実装できる人材への強い需要を示しています。

本シリーズが、あなたのRAG実装の羅針盤になれば幸いです。 LLM Deep Dive と併せて読むことで、生成AIの全体像がさらに鮮明になるはずです。

理解度チェック

問題 0 / 50%
Q1

2026年の日本語RAG鉄板スタックで、Embeddingの第一候補として推奨されるモデルはどれですか?

キーボード: 1〜4 で選択、Enter で回答