第8章: ハーネス比較とエコシステム | ハーネスエンジニアリング Deep Dive

ここまでハーネスの「中身」を解剖してきました。本章では視点を引いて、実在する主要ハーネスとフレームワークを横並びで比較し、その周辺に広がるエコシステム（メモリ・可観測性・サンドボックス）と、標準化をめぐるガバナンスを概観します。どれを選ぶかは「正解」ではなくタスク特性で決まります。

コーディングエージェント・ハーネスの比較

まずは最も身近な、コードを書くエージェント群。同じ「コーディングエージェント」でも、CLI常駐型かIDE統合型か、完全自律か対話的か、自前モデル持ち込み（BYOM＝Bring Your Own Model）が可能かで性格が大きく異なります。

ハーネス	形態	構成	OSS / BYOM	主な用途
Claude Code	CLI（端末＋FS上で実行）	単一＋サブエージェント	クローズド / BYOM不可	難問・大規模リファクタ・不慣れなコードベース
Cursor（agent mode）	専用IDE	単一＋並列タブ	クローズド / BYOM可	対話的な日常の機能開発
Devin（Cognition）	クラウド・フルサンドボックス	単一・高自律	クローズド / BYOM不可	完全に任せる非同期タスク委譲
Codex / Codex CLI	CLI（＋クラウド）	単一	CLIはOSS寄り / モデルはクローズド	OpenAIモデル前提の端末中心開発
Aider	Git-native CLI	単一	OSS / BYOM対応	軽量・既存リポ・ローカルLLM可
OpenHands	OSS（Docker内）	単一（拡張可）	OSS / BYOM対応	自前ホスト・研究・カスタム

フレームワーク — ハーネスを「作る」土台

既製のエージェントを使うのではなく、自分でハーネスを組むなら、フレームワークが土台になります。制御モデル（グラフか会話か役割か）と、単一/マルチの志向で選びます。

フレームワーク	制御モデル	向く用途
LangGraph	グラフ（ステートマシン）	本番・状態管理・チェックポイント・監査/ロールバック
CrewAI	ロールベースDSL	役割分担が明快な業務自動化を素早く立ち上げ
AutoGen / MS Agent Framework	会話駆動	会話的マルチエージェント・合議/討論
OpenAI Agents SDK	handoff（明示的制御移譲）	OpenAIエコシステムでの本番エージェント
Claude Agent SDK	agent loop（gather→act→verify）	Claude Codeと同じループを自前アプリに
smolagents	コード実行型（Pythonを書いて実行）	軽量・研究・HuggingFaceエコシステム

評価ハーネス — 計測器としてのハーネス

第2章で区別した「もう一つのハーネス」、すなわち能力を測る計測器も、エコシステムの重要な一部です。 SWE-bench（実GitHub課題をパッチで解決）、lm-evaluation-harness（EleutherAI、一般NLP評価のデファクト）、 Terminal-Bench（Stanford/Laude、端末上の現実的タスク）。これらは「同一ツーリング・同一環境でモデルを走らせ、純粋な能力とハーネス品質を切り分ける」役割を担い、ハーネス改善のPDCAを回す土台になります（テーゼ検証は第9章）。

エコシステム — メモリ・可観測性・サンドボックス

ハーネスの周りには、専門ツールが層をなしています。

メモリ: Letta（旧MemGPT、OS的な階層メモリをループ内に持つ）／ mem0（既存フレームワークに後付けするメモリ層）。「メモリ衛生をループの内側に置くか外側のサービスにするか」が選択軸。
可観測性／評価: LangSmith（LangChain密結合）／ Langfuse（OSS、prompt中心）／ Braintrust（eval-first）／ Arize Phoenix（OTelネイティブ）。計装は OpenTelemetry の GenAI semantic conventions でベンダー非依存に保つのが潮流。
サンドボックス: E2B・Vercel Sandbox（Firecracker microVM、強い隔離・高速起動）／ Daytona・Modal（コンテナ/サーバーレス）。第7章のサンドボックスを実際に提供する層。

ガバナンス — 標準化とライセンス

ハーネスは単一プロダクトではなく規律なので、「ガバナンス」とは主に標準化の動きとオープンソースのライセンスを指します。 2025年の大きな潮流は、エージェント関連の2大プロトコルが揃って Linux Foundation 傘下に入ったことです。

対象	ガバナンス	ライセンス（要注意点）
MCP（Model Context Protocol）	Anthropic発 → 2025-12 Linux Foundationの Agentic AI Foundation へ寄贈	MIT → Apache-2.0 へ移行中（SDK間で状態が不統一）
A2A（Agent2Agent）	Google発 → 2025-06 Linux Foundationへ移管	Apache-2.0
lm-evaluation-harness / SWE-bench / SWE-agent	EleutherAI / プリンストン系	いずれも MIT
Aider	Paul Gauthier	Apache-2.0
OpenHands	All Hands AI	MIT（ただし enterprise/ 配下は別ライセンス）
LangChain / LangGraph	LangChain社	MIT

選び方の結論はシンプルです。難しい多ファイル変更なら Claude Code、対話的開発なら Cursor、完全委譲なら Devin、軽量・BYOMなら Aider、自前ホストなら OpenHands。フレームワークは本番の状態管理なら LangGraph、素早い役割分担なら CrewAI、Claude Codeと同じループなら Claude Agent SDK。そして「ハーネスは本当にそこまで効くのか？」——次章で、この章全体の前提を批判的に検証します。

理解度チェック

問題 0 / 40%

「軽量に既存リポへ導入でき、ローカルLLMを含むBYOM（自前モデル持ち込み）に対応し、git diff駆動」という特徴に最も合うコーディングハーネスはどれですか？

キーボード: 1〜4 で選択、Enter で回答