第10章: 本番運用とこれから — 実装スタック・事例・2026年以降 | RAG / ベクトル検索 Deep Dive

2026年の推奨スタック — 日本語RAG鉄板構成

ここまで9章にわたって学んだ要素技術を、実際の本番構成としてまとめます。 2026年時点の日本語RAGで、コスト・精度・運用のバランスが取れた鉄板スタックです。

graph TB
  subgraph Ingestion[取り込み]
    L[Loader\n Docling/LlamaParse]
    C[Chunker\n Recursive+Sudachi]
    E[Embedding\n Ruri-v3-310m]
    L --> C --> E
  end
  subgraph Storage[ストレージ]
    P[pgvector\n HNSW]
    B[BM25\n Sudachi tokenize]
  end
  subgraph Query[クエリ処理]
    QT[Query Transform\n HyDE]
    D[Dense検索]
    S[Sparse検索]
    RRF[RRF融合]
    RR[Reranker\n japanese-reranker-v2]
  end
  subgraph Gen[生成]
    G[LLM\n Claude Opus/GPT-5]
    O[Phoenix\n観測]
  end

  E --> P
  C --> B
  QT --> D
  QT --> S
  D --> RRF
  S --> RRF
  RRF --> RR --> G
  G --> O

  style E fill:#8b5cf6,stroke:#6d28d9,color:#fff
  style RRF fill:#f97316,stroke:#ea580c,color:#fff
  style G fill:#14b8a6,stroke:#0d9488,color:#fff

2026年の日本語RAG鉄板スタック。各層で複数の選択肢があるが、この構成は多くの案件で無難に動く

層	推奨	代替
ドキュメント取込	Docling (IBM, OSS, OCR強い)	LlamaParse (有料・最高精度), Unstructured
Chunking	Recursive 512/100 + Sudachi境界	Semantic, Contextual (Anthropic)
Embedding	Ruri-v3-310m (JMTEB 77.2)	OpenAI text-embedding-3-large, BGE-M3
Vector DB	pgvector (〜1000万) / pgvectorscale	Qdrant (OSS最速), Pinecone (運用ゼロ)
Sparse検索	BM25 + Sudachi tokenize	SPLADE-ja
融合	RRF k=60	Linear combination（ラベル要）
Reranker	japanese-reranker-base-v2	Cohere Rerank v4 Pro, Jina v3
オーケストレーション	LlamaIndex + LangGraph	Haystack, Vercel AI SDK
LLM	Claude Opus 4.6 / GPT-5 / Gemini 2.5	Llama 3.3, DeepSeek, ローカルSLM
評価	Ragas（開発）+ ARES（本番前）	DeepEval, TruLens
観測	Phoenix (OSS) / LangSmith	Maxim AI, Datadog

代表事例 — 世界と日本のRAG最前線

Perplexity AI — RAGネイティブ検索（評価額200億ドル）

2022年創業、CEO Aravind Srinivas。Web検索→生成のRAGアーキテクチャを標準化した先駆者。 2025年末時点でMAU 45M、ARR $500M超（前年比+335%）、月間クエリ780M件。「検索エンジンの代替」というポジショニングで急成長し、2025年9月に評価額$20Bに到達。

Morgan Stanley — 350,000ドキュメントのRAG化

OpenAI × GPT-4でリサーチレポート4,000万語をインデックス化。 ウェルスアドバイザーの98%が日常的に使用という驚異的な採用率を達成。 7,000問のテストセット → 10万ドキュメントへスケール、OpenAIとの共同でハルシネーション評価を徹底。派生プロダクトのAskResearchGPTも展開。

Harvey — 法務AIの支配的プラットフォーム（評価額110億ドル）

2026年3月時点で評価額$11B（$200M調達）、AmLaw 100の50社に導入、1,300組織10万弁護士が利用。 ARR $190M（2026年1月）、2025年だけで$760M調達（Series D→E→F→$11B）。 M&A、デューデリ、契約ドラフトのカスタムエージェントが2.5万件超。法務RAGの勝者。

Klarna — カスタマーサポートの2/3を自動化

OpenAI APIベースで月230万会話を処理、フルタイムエージェント700人分の業務を代替。解決時間を11分→2分未満に、再問合せを25%削減、年間$40M利益改善。 2025年には「AIファーストの見直し」で人間ハイブリッドへ回帰したが、RAGの実務価値を最も明確に示した事例。

日本事例 — LINEヤフー・NTT・日立

LINEヤフー SeekAI: 全社員向け社内情報検索RAG。自動評価パイプラインで複数LLM相互評価
NTT-AT: 業務文書RAG社内コンペで精度95%達成
NTTデータ: 業務領域ごとに参照ファイル分割で精度向上の知見を公開
日立ソリューションズ × 北野建設: 建設業向けRAG実業務検証（2024/11-2025/3）
アサヒビール、朝日生命、JR東日本、AGC、東京メトロ、出光興産、東京ガス等

Long-context vs RAG — 2026年の決着

Gemini 2.5/3 Pro（1Mトークン）、Claude Opus 4.6（200K+）、GPT-5（1M）といった長文コンテキストLLMの台頭で、「RAGはもう不要？」という議論が起きました。 2026年時点の実務的結論は次の通りです。

条件	推奨	理由
文書量 < 500ページ、固定	Long-context	Prompt Cachingで安く、推論深い
文書量 > 500ページ、動的更新	RAG	コスト・レイテンシで優位
引用・出典必須	RAG	取得chunkのメタデータを直接参照できる
マルチドキュメント横断の深い推論	ハイブリッド	RAGで絞込→Long-contextで推論（最強）
コスト制約厳しい	RAG	平均783 tok/req、~1秒応答でコスト効率

Multimodal RAG — 2026年の主戦場

2025〜2026年の最大のトレンドがMultimodal RAGです。従来のテキストチャンク埋め込みでは、チャート・表・ダイアグラム・画像を含む文書で情報が抜け落ちていました。これを解決する新手法が次々登場しています。

手法	仕組み	特徴
ColPali (2024)	ビジョン言語モデルでページ画像を直接ColBERT風にパッチ埋め込み	OCR不要、レイアウトも保持
ColQwen	Qwen2.5-VLベースのColPali系	多言語・画像理解高精度
Voyage Multimodal 3	テキスト+画像を同一空間に	商用API、チャート・表に強い
Cohere Embed v4	1024次元マルチモーダル、128Kトークン	商用API、長文対応
Gemini Embedding 2	5モダリティ（text/image/video/audio/PDF）、100+言語	Google、3072次元

実用的な使い所は、財務レポート（表とグラフが多い）、技術ドキュメント（アーキテクチャ図）、契約書（印鑑・署名の位置情報）、医療画像付きレポートなどです。 2026年後半には「テキストRAG」より「Multimodal RAG」が実装のデフォルトになる見通しです。

MCP × RAG — エージェント時代の統合

2025年に普及したModel Context Protocol (MCP)により、 RAGシステム自体がエージェントから呼び出せるツール（MCPサーバ）として提供される流れが加速しています。

Claude Desktop・Cursor・Claude Code・ChatGPT DesktopなどのクライアントがMCPサーバに接続し、社内知識ベースや専門DBをツールとして使えます。「RAGを組み込む」から「RAGをMCPサーバ化し、AIエージェントから利用させる」へのアーキテクチャ転換が進行中です。

学習ロードマップ — 7フェーズで習得する

フェーズ	期間目安	内容
Phase 1: 基礎	1〜2週間	Embeddings数学理解、MTEB/JMTEB、DeepLearning.AI「RAG」コース
Phase 2: 最小実装	1〜2週間	pgvector + OpenAI/Ruriで最小RAG、LlamaIndex Quickstart
Phase 3: Chunking	1週間	Recursive/Semantic/Contextual、Sudachi境界
Phase 4: Query変換・Rerank	1〜2週間	HyDE, Multi-query, Rerank追加, Hybrid (RRF)
Phase 5: 評価	1〜2週間	Ragas 4指標、合成データ、Phoenix観測
Phase 6: Advanced	2〜4週間	Contextual Retrieval, GraphRAG/LightRAG, Agentic RAG
Phase 7: 本番化	継続	コスト最適化、監視、A/Bテスト、セキュリティ

2026年以降の未来 — RAGの行き先

最後に、RAGが今後どこに向かうかを整理しておきましょう。3つの方向性があります。

① Agentic化の加速

静的な「検索→生成」から、エージェントが動的にツール選択・反復検索・自己批判する方向への移行が続きます。 LangGraph、Anthropic Agent SDK、OpenAI Assistants API、CrewAIなどが競合しつつ成熟します。

② Multimodal化の本格化

ColPali、Voyage Multimodal 3、Gemini Embedding 2が標準装備化し、「テキストだけのRAG」は一部ユースケースに留まります。 2026年後半にはMultimodal RAGが実装のデフォルトになる見通しです。

③ MCP統合による分散化

RAGが「アプリ内コンポーネント」から「MCPサーバ」へと外出しされ、複数のエージェントから共有知識ベースとして利用される形態が広がります。「自社のRAGシステムを作る」から「自社のRAG MCPサーバを公開する」へ、という表現の変化が起きるでしょう。

シリーズの総括

10章にわたってRAGとベクトル検索を深掘りしてきました。要素技術を振り返ると、BM25（1994）、Word2Vec（2013）、HNSW（2016）、BERT（2018）、そしてRAG論文（2020）という 50年の系譜が2020年代前半に合流し、ChatGPT時代のエンタープライズAIを支える基盤となりました。

2026年の今、RAGは「研究テーマ」ではなく「実務必須スキル」です。採用率51%、市場規模110億ドル予測、Morgan Stanley・Harvey・Perplexityといった$10B超のプレイヤーの登場 — これらは実装できる人材への強い需要を示しています。

本シリーズが、あなたのRAG実装の羅針盤になれば幸いです。 LLM Deep Dive と併せて読むことで、生成AIの全体像がさらに鮮明になるはずです。

理解度チェック

問題 0 / 50%

2026年の日本語RAG鉄板スタックで、Embeddingの第一候補として推奨されるモデルはどれですか？

キーボード: 1〜4 で選択、Enter で回答