「賢いプロンプト」から「賢い記憶設計」へ
2026年、LLMの実力を引き出す鍵は「うまいプロンプトを書くこと」から 「AIに何をどう記憶させるか」を設計することへと移りました。 1Mトークンの文脈窓が当たり前になり、セッションを跨ぐ永続メモリが一次ベンダーの標準機能になったいま、 エンジニアの腕の見せどころは情報アーキテクチャの設計に変わっています。 本記事では、この「コンテキスト/メモリ革命」を 4つの論点 で整理します。
全体像:4つの論点
flowchart TB
M["コンテキスト/メモリ革命"]
M --> P1["論点1: 1Mは標準だが<br/>使える長さは別物(context rot)"]
M --> P2["論点2: プロンプトから<br/>コンテキストエンジニアリングへ"]
M --> P3["論点3: 記憶をモデル外部に<br/>永続化する時代へ"]
M --> P4["論点4: RAGは死なず<br/>役割を純化して進化"]
論点① 1Mは標準。でも「使える長さ」は別物
1Mトークン級の文脈窓は主要モデルで横並びになり、Gemini系は一部2Mまで対応します。 しかし「広告値=信頼できる長さ」ではありません。 2025年にChromaが18のフロンティアモデルを検証した研究で、context rot(入力が長くなるほど精度が劣化する現象)が全モデルに確認されました。
原因は主に3つです。文脈の中盤に置いた事実が見落とされやすい lost-in-the-middle(Liu et al. 2023)、 入力が長いほど注意が薄まる attention dilution、そして意味的に近い無関係情報が誤誘導する distractor interference。 つまり、勝負どころは「どれだけ詰め込めるか」ではなく、「何を見せ、何を見せないか」のキュレーションです。
論点② プロンプトからコンテキストエンジニアリングへ
2025年に主役が交代しました。Anthropicは9月29日に「Effective context engineering for AI agents」を公開し、 コンテキストエンジニアリングを「推論時に最適なトークン集合をキュレートし維持する戦略」と定義しました。 Gartnerも「context engineering is in, prompt engineering is out」と表明しています。
プロンプトエンジニアリング(指示文の書き方)は、この大きな枠組みの一部分へと格下げされました。 コンテキストには会話履歴・検索文書・ツール出力・エージェント状態・動的な知識が含まれ、それらをどう組み立てるかが設計対象になります。 Claude Codeに代表される just-in-time(必要時取得) の発想 — 全データを事前ロードせず、ファイルパスやクエリなど軽量な参照だけを保持して実行時に動的ロードする — がその好例です。
論点③ 記憶をモデル外部に永続化する
2025〜2026年は「記憶の外部化」が一次ベンダー機能になった年でした。
Anthropicは2025年9月にmemory tool(/memories ディレクトリにファイルとして記憶を読み書きする仕組み)を公開。
消費者向けClaudeのメモリも2025年8月の導入から段階展開され、2026年3月には無料層まで開放されました。
決定打となったのが、4月23日の Claude Managed Agents向け永続メモリ(パブリックベータ) です。 メモリをファイルシステム上に保存し、API/Console経由でエクスポート・編集できます。 Netflix・楽天などが早期採用し、初回エラーを大幅に削減したと報告されています(PR由来の数値のため条件は要確認)。 OpenAIのChatGPTも「保存メモリ+過去チャットの自動参照」を備え、5月には「どの記憶が回答に使われたか」を可視化するMemory sourcesを導入しました。
Claude 消費者向けメモリ導入
当初は有料層限定でClaudeにメモリを搭載。約8か月にわたる段階展開の起点。
Anthropic コンテキスト管理3点セット
memory tool・context editing・compactionを公開。同日「Effective context engineering」でコンテキストエンジニアリングを定義。
Chroma「Context Rot」研究
18のフロンティアモデル全てで、入力長の増加に伴う精度劣化を実証。「量よりキュレーション」を裏付け。
Claudeメモリを無料層へ開放
全ユーザーが利用可能に。他サービスからのインポートツールも追加。
Managed Agents 永続メモリ(ベータ)
ファイルとして外部保存しAPI/Consoleで管理。Netflix・楽天などが早期採用。
ChatGPTメモリ強化 + Memory sources
過去チャット・ファイル参照を強化し、どの記憶が使われたかを可視化する機能を導入。
論点④ RAGは死なず、役割を純化して進化した
「1M文脈があればRAGは不要」という声もありますが、実態は逆です。 素朴なRAG(ベクトル検索でtop-kを詰め込むだけ)は時代遅れになりましたが、 RAGは Agentic RAG / Adaptive RAG へと進化しました。 検索の要否や使う検索器、停止のタイミングをエージェント自身が判断する形です。
2026年の定石は役割分担です。RAGで「証拠集合」を決め、長文脈でその上を推論する。 エンタープライズ規模のデータでは、すべてを文脈窓に入れることは現実的でなく、検索は依然として必須です。 並行して、長く賢いエージェントを支える効率化技術も一次ベンダーの標準機能になりました。
- compaction: コンテキスト限界に近づくと会話を自動要約して圧縮する。
- context editing: 古いツール結果やthinkingブロックをしきい値超過で削除する。
- prompt caching: 共通プレフィックスのKVキャッシュを再利用し、コストを最大90%・レイテンシを大幅に削減する。
整理:コンテキスト窓 / 永続メモリ / RAG の役割
3つは排他ではなく、階層的に組み合わせるのが2026年の設計です。
| 観点 | コンテキスト窓 | 永続メモリ | RAG |
|---|---|---|---|
| 記憶の場所 | 推論時の入力の中 | モデル外部のファイル/DB | 外部の知識ベース |
| 持続性 | セッション限り(揮発) | 会話・タスクを跨ぐ | 永続(都度検索) |
| 主な役割 | 今このタスクの作業領域 | ユーザー嗜好・学び・進捗の蓄積 | 大規模・最新の外部事実の注入 |
| 弱点 | context rot・コスト・速度 | 記憶の陳腐化・本人性の解決 | 素朴版は関連性ミス・多段推論不可 |
| 2026の位置づけ | 限定した証拠の上を推論する場 | エージェントの継続性の担い手 | 証拠集合を「決める」役割に純化 |
まとめ
- ① 「長文脈=賢い」ではない。 context rotは全モデルに存在します。重要なのは容量ではなく「何を見せるか」のキュレーションです。
- ② 記憶は3レイヤーで設計する。 コンテキスト窓・永続メモリ・RAGは役割が違い、排他ではなく階層的に組み合わせます。RAGは死なず、証拠集合を決める役割に純化して進化しました。
- ③ 記憶の外部化は標準機能になった。 memory tool・compaction・context editing・prompt caching(最大90%コスト減)が、長く賢いエージェントを成立させる土台です。
理解度チェック
Chromaの研究で全フロンティアモデルに確認された、入力が長くなるほど精度が劣化する現象を、英語2語で「context ___ 」と呼ぶ。