ここまでハーネスの「中身」を解剖してきました。本章では視点を引いて、実在する主要ハーネスとフレームワークを横並びで比較し、 その周辺に広がるエコシステム(メモリ・可観測性・サンドボックス)と、標準化をめぐるガバナンスを概観します。 どれを選ぶかは「正解」ではなくタスク特性で決まります。

コーディングエージェント・ハーネスの比較

まずは最も身近な、コードを書くエージェント群。同じ「コーディングエージェント」でも、CLI常駐型かIDE統合型か、完全自律か対話的か、 自前モデル持ち込み(BYOM=Bring Your Own Model)が可能かで性格が大きく異なります。

ハーネス 形態 構成 OSS / BYOM 主な用途
Claude Code CLI(端末+FS上で実行) 単一+サブエージェント クローズド / BYOM不可 難問・大規模リファクタ・不慣れなコードベース
Cursor(agent mode) 専用IDE 単一+並列タブ クローズド / BYOM可 対話的な日常の機能開発
Devin(Cognition) クラウド・フルサンドボックス 単一・高自律 クローズド / BYOM不可 完全に任せる非同期タスク委譲
Codex / Codex CLI CLI(+クラウド) 単一 CLIはOSS寄り / モデルはクローズド OpenAIモデル前提の端末中心開発
Aider Git-native CLI 単一 OSS / BYOM対応 軽量・既存リポ・ローカルLLM可
OpenHands OSS(Docker内) 単一(拡張可) OSS / BYOM対応 自前ホスト・研究・カスタム

フレームワーク — ハーネスを「作る」土台

既製のエージェントを使うのではなく、自分でハーネスを組むなら、フレームワークが土台になります。 制御モデル(グラフか会話か役割か)と、単一/マルチの志向で選びます。

フレームワーク 制御モデル 向く用途
LangGraph グラフ(ステートマシン) 本番・状態管理・チェックポイント・監査/ロールバック
CrewAI ロールベースDSL 役割分担が明快な業務自動化を素早く立ち上げ
AutoGen / MS Agent Framework 会話駆動 会話的マルチエージェント・合議/討論
OpenAI Agents SDK handoff(明示的制御移譲) OpenAIエコシステムでの本番エージェント
Claude Agent SDK agent loop(gather→act→verify) Claude Codeと同じループを自前アプリに
smolagents コード実行型(Pythonを書いて実行) 軽量・研究・HuggingFaceエコシステム

評価ハーネス — 計測器としてのハーネス

第2章で区別した「もう一つのハーネス」、すなわち能力を測る計測器も、エコシステムの重要な一部です。 SWE-bench(実GitHub課題をパッチで解決)、lm-evaluation-harness(EleutherAI、一般NLP評価のデファクト)、 Terminal-Bench(Stanford/Laude、端末上の現実的タスク)。 これらは「同一ツーリング・同一環境でモデルを走らせ、純粋な能力とハーネス品質を切り分ける」役割を担い、ハーネス改善のPDCAを回す土台になります(テーゼ検証は第9章)。

エコシステム — メモリ・可観測性・サンドボックス

ハーネスの周りには、専門ツールが層をなしています。

  • メモリ: Letta(旧MemGPT、OS的な階層メモリをループ内に持つ)/ mem0(既存フレームワークに後付けするメモリ層)。「メモリ衛生をループの内側に置くか外側のサービスにするか」が選択軸。
  • 可観測性/評価: LangSmith(LangChain密結合)/ Langfuse(OSS、prompt中心)/ Braintrust(eval-first)/ Arize Phoenix(OTelネイティブ)。計装は OpenTelemetry の GenAI semantic conventions でベンダー非依存に保つのが潮流。
  • サンドボックス: E2B・Vercel Sandbox(Firecracker microVM、強い隔離・高速起動)/ Daytona・Modal(コンテナ/サーバーレス)。第7章のサンドボックスを実際に提供する層。

ガバナンス — 標準化とライセンス

ハーネスは単一プロダクトではなく規律なので、「ガバナンス」とは主に標準化の動きとオープンソースのライセンスを指します。 2025年の大きな潮流は、エージェント関連の2大プロトコルが揃って Linux Foundation 傘下に入ったことです。

対象 ガバナンス ライセンス(要注意点)
MCP(Model Context Protocol) Anthropic発 → 2025-12 Linux Foundationの Agentic AI Foundation へ寄贈 MIT → Apache-2.0 へ移行中(SDK間で状態が不統一)
A2A(Agent2Agent) Google発 → 2025-06 Linux Foundationへ移管 Apache-2.0
lm-evaluation-harness / SWE-bench / SWE-agent EleutherAI / プリンストン系 いずれも MIT
Aider Paul Gauthier Apache-2.0
OpenHands All Hands AI MIT(ただし enterprise/ 配下は別ライセンス)
LangChain / LangGraph LangChain社 MIT

選び方の結論はシンプルです。難しい多ファイル変更なら Claude Code、対話的開発なら Cursor、完全委譲なら Devin、軽量・BYOMなら Aider、自前ホストなら OpenHands。 フレームワークは本番の状態管理なら LangGraph、素早い役割分担なら CrewAI、Claude Codeと同じループなら Claude Agent SDK。 そして「ハーネスは本当にそこまで効くのか?」——次章で、この章全体の前提を批判的に検証します。

理解度チェック

問題 0 / 40%
Q1

「軽量に既存リポへ導入でき、ローカルLLMを含むBYOM(自前モデル持ち込み)に対応し、git diff駆動」という特徴に最も合うコーディングハーネスはどれですか?

キーボード: 1〜4 で選択、Enter で回答