← Deep Dive Technology

ハーネスエンジニアリング Deep Dive

「Agent = Model + Harness」— LLMをエージェントとして動かす周辺ソフトウェア層『ハーネス』を10章で徹底解剖。エージェントループ・コンテキスト工学・ツール設計(ACI)・マルチエージェント論争・安全性・比較・ベンチマークの罠・自作までを、一次情報に基づいて網羅するシリーズ

#ハーネスエンジニアリング#AIエージェント#LLM#コンテキストエンジニアリング#エージェント開発

目次

  1. 第1章
    第1章: ハーネスエンジニアリングとは何か — 「Agent = Model + Harness」 ハーネスの定義、ワークフローとエージェントの区別、テーゼ「ハーネスはモデルと同じくらい重要」、なぜ2026年に注目される規律になったか
  2. 第2章
    第2章: ハーネスの歴史と系譜 — テストハーネスからエージェントハーネスへ test harness→評価ハーネス(lm-eval-harness/SWE-bench)→エージェントハーネスへの意味拡張。ReAct・AutoGPT・Devin・SWE-agent、2026年の『命名』。年表
  3. 第3章
    第3章: エージェントループの解剖 — while-loopと終了制御 中核のwhile-loop、ツール呼び出しのフロー、終了判定、サーキットブレーカー、耐久実行(durable execution)とチェックポイント
  4. 第4章
    第4章: コンテキストエンジニアリング — 有限資源としてのコンテキスト context rot、トークン予算、JIT取得 vs 事前取得、compaction、メモリ/ノートテイキング、プロンプトキャッシュ
  5. 第5章
    第5章: ツール設計とACI — エージェント・コンピュータ・インターフェース ACIの概念、ツール設計の厳格さ(SWE-agent 3.8%→12.5%)、poka-yoke、並列ツール呼び出し、配線標準としてのMCP
  6. 第6章
    第6章: サブエージェントとマルチエージェント論争 Anthropic(orchestrator-worker・+90.2%) vs Cognition(single-thread・Don't Build Multi-Agents)。read-heavy/write-heavyで選ぶ軸、コスト15倍問題
  7. 第7章
    第7章: 安全に走らせる — 権限・サンドボックス・ステアリング 権限パイプライン(deny-first)、サンドボックス(microVM/Docker)、Codexの2層モデル、auto-mode分類器、ストリーミング・中断・Human-in-the-Loop
  8. 第8章
    第8章: ハーネス比較とエコシステム Claude Code/Cursor/Devin/Codex/Aider/OpenHands、フレームワーク(LangGraph他)、評価ハーネス、ガバナンス(MCP/A2AのLinux Foundation化・ライセンス)
  9. 第9章
    第9章: ハーネスは本当に効くのか — テーゼの検証とベンチマークの罠 SWE-bench Verifiedの推移(33→49→72→80%)、ベンチマーク飽和・偽陽性の罠、『効く派 vs モデル派』の論争を一次情報で公平に検証
  10. 第10章
    第10章: 最小ハーネスを作る — 実装・失敗モード・学習ロードマップ 自前ループの実装ステップ、mini-SWE-agent(約100行)、SDK選択、よくある失敗と対処、学習ロードマップ、未来