2026年5月22日開始

ハーネスエンジニアリング Deep Dive

「Agent = Model + Harness」— LLMをエージェントとして動かす周辺ソフトウェア層『ハーネス』を10章で徹底解剖。エージェントループ・コンテキスト工学・ツール設計(ACI)・マルチエージェント論争・安全性・比較・ベンチマークの罠・自作までを、一次情報に基づいて網羅するシリーズ

#ハーネスエンジニアリング#AIエージェント#LLM#コンテキストエンジニアリング#エージェント開発

第1章
第1章: ハーネスエンジニアリングとは何か — 「Agent = Model + Harness」ハーネスの定義、ワークフローとエージェントの区別、テーゼ「ハーネスはモデルと同じくらい重要」、なぜ2026年に注目される規律になったか
→
第2章
第2章: ハーネスの歴史と系譜 — テストハーネスからエージェントハーネスへ test harness→評価ハーネス(lm-eval-harness/SWE-bench)→エージェントハーネスへの意味拡張。ReAct・AutoGPT・Devin・SWE-agent、2026年の『命名』。年表
→
第3章
第3章: エージェントループの解剖 — while-loopと終了制御中核のwhile-loop、ツール呼び出しのフロー、終了判定、サーキットブレーカー、耐久実行(durable execution)とチェックポイント
→
第4章
第4章: コンテキストエンジニアリング — 有限資源としてのコンテキスト context rot、トークン予算、JIT取得 vs 事前取得、compaction、メモリ/ノートテイキング、プロンプトキャッシュ
→
第5章
第5章: ツール設計とACI — エージェント・コンピュータ・インターフェース ACIの概念、ツール設計の厳格さ(SWE-agent 3.8%→12.5%)、poka-yoke、並列ツール呼び出し、配線標準としてのMCP
→
第6章
第6章: サブエージェントとマルチエージェント論争 Anthropic(orchestrator-worker・+90.2%) vs Cognition(single-thread・Don't Build Multi-Agents)。read-heavy/write-heavyで選ぶ軸、コスト15倍問題
→
第7章
第7章: 安全に走らせる — 権限・サンドボックス・ステアリング権限パイプライン(deny-first)、サンドボックス(microVM/Docker)、Codexの2層モデル、auto-mode分類器、ストリーミング・中断・Human-in-the-Loop
→
第8章
第8章: ハーネス比較とエコシステム Claude Code/Cursor/Devin/Codex/Aider/OpenHands、フレームワーク(LangGraph他)、評価ハーネス、ガバナンス(MCP/A2AのLinux Foundation化・ライセンス)
→
第9章
第9章: ハーネスは本当に効くのか — テーゼの検証とベンチマークの罠 SWE-bench Verifiedの推移(33→49→72→80%)、ベンチマーク飽和・偽陽性の罠、『効く派 vs モデル派』の論争を一次情報で公平に検証
→
第10章
第10章: 最小ハーネスを作る — 実装・失敗モード・学習ロードマップ自前ループの実装ステップ、mini-SWE-agent(約100行)、SDK選択、よくある失敗と対処、学習ロードマップ、未来
→

目次