ここまでハーネスの「中身」を解剖してきました。本章では視点を引いて、実在する主要ハーネスとフレームワークを横並びで比較し、 その周辺に広がるエコシステム(メモリ・可観測性・サンドボックス)と、標準化をめぐるガバナンスを概観します。 どれを選ぶかは「正解」ではなくタスク特性で決まります。
コーディングエージェント・ハーネスの比較
まずは最も身近な、コードを書くエージェント群。同じ「コーディングエージェント」でも、CLI常駐型かIDE統合型か、完全自律か対話的か、 自前モデル持ち込み(BYOM=Bring Your Own Model)が可能かで性格が大きく異なります。
| ハーネス | 形態 | 構成 | OSS / BYOM | 主な用途 |
|---|---|---|---|---|
| Claude Code | CLI(端末+FS上で実行) | 単一+サブエージェント | クローズド / BYOM不可 | 難問・大規模リファクタ・不慣れなコードベース |
| Cursor(agent mode) | 専用IDE | 単一+並列タブ | クローズド / BYOM可 | 対話的な日常の機能開発 |
| Devin(Cognition) | クラウド・フルサンドボックス | 単一・高自律 | クローズド / BYOM不可 | 完全に任せる非同期タスク委譲 |
| Codex / Codex CLI | CLI(+クラウド) | 単一 | CLIはOSS寄り / モデルはクローズド | OpenAIモデル前提の端末中心開発 |
| Aider | Git-native CLI | 単一 | OSS / BYOM対応 | 軽量・既存リポ・ローカルLLM可 |
| OpenHands | OSS(Docker内) | 単一(拡張可) | OSS / BYOM対応 | 自前ホスト・研究・カスタム |
フレームワーク — ハーネスを「作る」土台
既製のエージェントを使うのではなく、自分でハーネスを組むなら、フレームワークが土台になります。 制御モデル(グラフか会話か役割か)と、単一/マルチの志向で選びます。
| フレームワーク | 制御モデル | 向く用途 |
|---|---|---|
| LangGraph | グラフ(ステートマシン) | 本番・状態管理・チェックポイント・監査/ロールバック |
| CrewAI | ロールベースDSL | 役割分担が明快な業務自動化を素早く立ち上げ |
| AutoGen / MS Agent Framework | 会話駆動 | 会話的マルチエージェント・合議/討論 |
| OpenAI Agents SDK | handoff(明示的制御移譲) | OpenAIエコシステムでの本番エージェント |
| Claude Agent SDK | agent loop(gather→act→verify) | Claude Codeと同じループを自前アプリに |
| smolagents | コード実行型(Pythonを書いて実行) | 軽量・研究・HuggingFaceエコシステム |
評価ハーネス — 計測器としてのハーネス
第2章で区別した「もう一つのハーネス」、すなわち能力を測る計測器も、エコシステムの重要な一部です。 SWE-bench(実GitHub課題をパッチで解決)、lm-evaluation-harness(EleutherAI、一般NLP評価のデファクト)、 Terminal-Bench(Stanford/Laude、端末上の現実的タスク)。 これらは「同一ツーリング・同一環境でモデルを走らせ、純粋な能力とハーネス品質を切り分ける」役割を担い、ハーネス改善のPDCAを回す土台になります(テーゼ検証は第9章)。
エコシステム — メモリ・可観測性・サンドボックス
ハーネスの周りには、専門ツールが層をなしています。
- メモリ: Letta(旧MemGPT、OS的な階層メモリをループ内に持つ)/ mem0(既存フレームワークに後付けするメモリ層)。「メモリ衛生をループの内側に置くか外側のサービスにするか」が選択軸。
- 可観測性/評価: LangSmith(LangChain密結合)/ Langfuse(OSS、prompt中心)/ Braintrust(eval-first)/ Arize Phoenix(OTelネイティブ)。計装は OpenTelemetry の GenAI semantic conventions でベンダー非依存に保つのが潮流。
- サンドボックス: E2B・Vercel Sandbox(Firecracker microVM、強い隔離・高速起動)/ Daytona・Modal(コンテナ/サーバーレス)。第7章のサンドボックスを実際に提供する層。
ガバナンス — 標準化とライセンス
ハーネスは単一プロダクトではなく規律なので、「ガバナンス」とは主に標準化の動きとオープンソースのライセンスを指します。 2025年の大きな潮流は、エージェント関連の2大プロトコルが揃って Linux Foundation 傘下に入ったことです。
| 対象 | ガバナンス | ライセンス(要注意点) |
|---|---|---|
| MCP(Model Context Protocol) | Anthropic発 → 2025-12 Linux Foundationの Agentic AI Foundation へ寄贈 | MIT → Apache-2.0 へ移行中(SDK間で状態が不統一) |
| A2A(Agent2Agent) | Google発 → 2025-06 Linux Foundationへ移管 | Apache-2.0 |
| lm-evaluation-harness / SWE-bench / SWE-agent | EleutherAI / プリンストン系 | いずれも MIT |
| Aider | Paul Gauthier | Apache-2.0 |
| OpenHands | All Hands AI | MIT(ただし enterprise/ 配下は別ライセンス) |
| LangChain / LangGraph | LangChain社 | MIT |
選び方の結論はシンプルです。難しい多ファイル変更なら Claude Code、対話的開発なら Cursor、完全委譲なら Devin、軽量・BYOMなら Aider、自前ホストなら OpenHands。 フレームワークは本番の状態管理なら LangGraph、素早い役割分担なら CrewAI、Claude Codeと同じループなら Claude Agent SDK。 そして「ハーネスは本当にそこまで効くのか?」——次章で、この章全体の前提を批判的に検証します。
理解度チェック
「軽量に既存リポへ導入でき、ローカルLLMを含むBYOM(自前モデル持ち込み)に対応し、git diff駆動」という特徴に最も合うコーディングハーネスはどれですか?
キーボード: 1〜4 で選択、Enter で回答