2026年の推奨スタック — 日本語RAG鉄板構成
ここまで9章にわたって学んだ要素技術を、実際の本番構成としてまとめます。 2026年時点の日本語RAGで、コスト・精度・運用のバランスが取れた鉄板スタックです。
graph TB
subgraph Ingestion[取り込み]
L[Loader\n Docling/LlamaParse]
C[Chunker\n Recursive+Sudachi]
E[Embedding\n Ruri-v3-310m]
L --> C --> E
end
subgraph Storage[ストレージ]
P[pgvector\n HNSW]
B[BM25\n Sudachi tokenize]
end
subgraph Query[クエリ処理]
QT[Query Transform\n HyDE]
D[Dense検索]
S[Sparse検索]
RRF[RRF融合]
RR[Reranker\n japanese-reranker-v2]
end
subgraph Gen[生成]
G[LLM\n Claude Opus/GPT-5]
O[Phoenix\n観測]
end
E --> P
C --> B
QT --> D
QT --> S
D --> RRF
S --> RRF
RRF --> RR --> G
G --> O
style E fill:#8b5cf6,stroke:#6d28d9,color:#fff
style RRF fill:#f97316,stroke:#ea580c,color:#fff
style G fill:#14b8a6,stroke:#0d9488,color:#fff| 層 | 推奨 | 代替 |
|---|---|---|
| ドキュメント取込 | Docling (IBM, OSS, OCR強い) | LlamaParse (有料・最高精度), Unstructured |
| Chunking | Recursive 512/100 + Sudachi境界 | Semantic, Contextual (Anthropic) |
| Embedding | Ruri-v3-310m (JMTEB 77.2) | OpenAI text-embedding-3-large, BGE-M3 |
| Vector DB | pgvector (〜1000万) / pgvectorscale | Qdrant (OSS最速), Pinecone (運用ゼロ) |
| Sparse検索 | BM25 + Sudachi tokenize | SPLADE-ja |
| 融合 | RRF k=60 | Linear combination(ラベル要) |
| Reranker | japanese-reranker-base-v2 | Cohere Rerank v4 Pro, Jina v3 |
| オーケストレーション | LlamaIndex + LangGraph | Haystack, Vercel AI SDK |
| LLM | Claude Opus 4.6 / GPT-5 / Gemini 2.5 | Llama 3.3, DeepSeek, ローカルSLM |
| 評価 | Ragas(開発)+ ARES(本番前) | DeepEval, TruLens |
| 観測 | Phoenix (OSS) / LangSmith | Maxim AI, Datadog |
代表事例 — 世界と日本のRAG最前線
Perplexity AI — RAGネイティブ検索(評価額200億ドル)
2022年創業、CEO Aravind Srinivas。Web検索→生成のRAGアーキテクチャを標準化した先駆者。 2025年末時点でMAU 45M、ARR $500M超(前年比+335%)、月間クエリ780M件。 「検索エンジンの代替」というポジショニングで急成長し、2025年9月に評価額$20Bに到達。
Morgan Stanley — 350,000ドキュメントのRAG化
OpenAI × GPT-4でリサーチレポート4,000万語をインデックス化。 ウェルスアドバイザーの98%が日常的に使用という驚異的な採用率を達成。 7,000問のテストセット → 10万ドキュメントへスケール、OpenAIとの共同でハルシネーション評価を徹底。 派生プロダクトのAskResearchGPTも展開。
Harvey — 法務AIの支配的プラットフォーム(評価額110億ドル)
2026年3月時点で評価額$11B($200M調達)、AmLaw 100の50社に導入、1,300組織10万弁護士が利用。 ARR $190M(2026年1月)、2025年だけで$760M調達(Series D→E→F→$11B)。 M&A、デューデリ、契約ドラフトのカスタムエージェントが2.5万件超。法務RAGの勝者。
Klarna — カスタマーサポートの2/3を自動化
OpenAI APIベースで月230万会話を処理、フルタイムエージェント700人分の業務を代替。 解決時間を11分→2分未満に、再問合せを25%削減、年間$40M利益改善。 2025年には「AIファーストの見直し」で人間ハイブリッドへ回帰したが、RAGの実務価値を最も明確に示した事例。
日本事例 — LINEヤフー・NTT・日立
- LINEヤフー SeekAI: 全社員向け社内情報検索RAG。自動評価パイプラインで複数LLM相互評価
- NTT-AT: 業務文書RAG社内コンペで精度95%達成
- NTTデータ: 業務領域ごとに参照ファイル分割で精度向上の知見を公開
- 日立ソリューションズ × 北野建設: 建設業向けRAG実業務検証(2024/11-2025/3)
- アサヒビール、朝日生命、JR東日本、AGC、東京メトロ、出光興産、東京ガス 等
Long-context vs RAG — 2026年の決着
Gemini 2.5/3 Pro(1Mトークン)、Claude Opus 4.6(200K+)、GPT-5(1M)といった長文コンテキストLLMの台頭で、 「RAGはもう不要?」という議論が起きました。 2026年時点の実務的結論は次の通りです。
| 条件 | 推奨 | 理由 |
|---|---|---|
| 文書量 < 500ページ、固定 | Long-context | Prompt Cachingで安く、推論深い |
| 文書量 > 500ページ、動的更新 | RAG | コスト・レイテンシで優位 |
| 引用・出典必須 | RAG | 取得chunkのメタデータを直接参照できる |
| マルチドキュメント横断の深い推論 | ハイブリッド | RAGで絞込→Long-contextで推論(最強) |
| コスト制約厳しい | RAG | 平均783 tok/req、~1秒応答でコスト効率 |
Multimodal RAG — 2026年の主戦場
2025〜2026年の最大のトレンドがMultimodal RAGです。 従来のテキストチャンク埋め込みでは、チャート・表・ダイアグラム・画像を含む文書で情報が抜け落ちていました。 これを解決する新手法が次々登場しています。
| 手法 | 仕組み | 特徴 |
|---|---|---|
| ColPali (2024) | ビジョン言語モデルでページ画像を直接ColBERT風にパッチ埋め込み | OCR不要、レイアウトも保持 |
| ColQwen | Qwen2.5-VLベースのColPali系 | 多言語・画像理解高精度 |
| Voyage Multimodal 3 | テキスト+画像を同一空間に | 商用API、チャート・表に強い |
| Cohere Embed v4 | 1024次元マルチモーダル、128Kトークン | 商用API、長文対応 |
| Gemini Embedding 2 | 5モダリティ(text/image/video/audio/PDF)、100+言語 | Google、3072次元 |
実用的な使い所は、財務レポート(表とグラフが多い)、技術ドキュメント(アーキテクチャ図)、 契約書(印鑑・署名の位置情報)、医療画像付きレポートなどです。 2026年後半には「テキストRAG」より「Multimodal RAG」が実装のデフォルトになる見通しです。
MCP × RAG — エージェント時代の統合
2025年に普及したModel Context Protocol (MCP)により、 RAGシステム自体がエージェントから呼び出せるツール(MCPサーバ)として提供される流れが加速しています。
Claude Desktop・Cursor・Claude Code・ChatGPT DesktopなどのクライアントがMCPサーバに接続し、 社内知識ベースや専門DBをツールとして使えます。 「RAGを組み込む」から「RAGをMCPサーバ化し、AIエージェントから利用させる」へのアーキテクチャ転換が進行中です。
学習ロードマップ — 7フェーズで習得する
| フェーズ | 期間目安 | 内容 |
|---|---|---|
| Phase 1: 基礎 | 1〜2週間 | Embeddings数学理解、MTEB/JMTEB、DeepLearning.AI「RAG」コース |
| Phase 2: 最小実装 | 1〜2週間 | pgvector + OpenAI/Ruriで最小RAG、LlamaIndex Quickstart |
| Phase 3: Chunking | 1週間 | Recursive/Semantic/Contextual、Sudachi境界 |
| Phase 4: Query変換・Rerank | 1〜2週間 | HyDE, Multi-query, Rerank追加, Hybrid (RRF) |
| Phase 5: 評価 | 1〜2週間 | Ragas 4指標、合成データ、Phoenix観測 |
| Phase 6: Advanced | 2〜4週間 | Contextual Retrieval, GraphRAG/LightRAG, Agentic RAG |
| Phase 7: 本番化 | 継続 | コスト最適化、監視、A/Bテスト、セキュリティ |
2026年以降の未来 — RAGの行き先
最後に、RAGが今後どこに向かうかを整理しておきましょう。3つの方向性があります。
① Agentic化の加速
静的な「検索→生成」から、エージェントが動的にツール選択・反復検索・自己批判する方向への移行が続きます。 LangGraph、Anthropic Agent SDK、OpenAI Assistants API、CrewAIなどが競合しつつ成熟します。
② Multimodal化の本格化
ColPali、Voyage Multimodal 3、Gemini Embedding 2が標準装備化し、 「テキストだけのRAG」は一部ユースケースに留まります。 2026年後半にはMultimodal RAGが実装のデフォルトになる見通しです。
③ MCP統合による分散化
RAGが「アプリ内コンポーネント」から「MCPサーバ」へと外出しされ、 複数のエージェントから共有知識ベースとして利用される形態が広がります。 「自社のRAGシステムを作る」から「自社のRAG MCPサーバを公開する」へ、という表現の変化が起きるでしょう。
シリーズの総括
10章にわたってRAGとベクトル検索を深掘りしてきました。 要素技術を振り返ると、BM25(1994)、Word2Vec(2013)、HNSW(2016)、BERT(2018)、そしてRAG論文(2020)という 50年の系譜が2020年代前半に合流し、ChatGPT時代のエンタープライズAIを支える基盤となりました。
2026年の今、RAGは「研究テーマ」ではなく「実務必須スキル」です。 採用率51%、市場規模110億ドル予測、Morgan Stanley・Harvey・Perplexityといった$10B超のプレイヤーの登場 — これらは実装できる人材への強い需要を示しています。
本シリーズが、あなたのRAG実装の羅針盤になれば幸いです。 LLM Deep Dive と併せて読むことで、生成AIの全体像がさらに鮮明になるはずです。
理解度チェック
2026年の日本語RAG鉄板スタックで、Embeddingの第一候補として推奨されるモデルはどれですか?
キーボード: 1〜4 で選択、Enter で回答