第9章: ハーネスは本当に効くのか — テーゼの検証とベンチマークの罠 | ハーネスエンジニアリング Deep Dive

ここまで「ハーネスはモデルと同じくらい重要だ」という前提で話を進めてきました。本章では、この前提を批判的に検証します。ハーネス論には強力な証拠がある一方、説得力のある反論もあり、そして測定の土台であるベンチマーク自体に深刻な罠が潜んでいます。良いエンジニアは、自分が依拠する命題を疑える人です。一次情報で両論を見ていきましょう。

「効く派」の証拠

まず、ハーネスが効くという主張を支える証拠は、かなり強固です。

Anthropic の明言: 「エージェントの性能は、同じ基盤モデルを使っていても、このスキャフォールド次第で大きく変わりうる」。しかも彼らの高性能な実装は Bash と Edit の2ツールだけのミニマル構成でした。
SWE-agent の ACI: モデルを変えずにインターフェースを設計しただけで、解決率が 3.8% → 12.5%（第5章）。
mini-SWE-agent: コア約100行のPython、bashのみ、LMのツール呼び出しインターフェースすら使わないのに、SWE-bench Verified で74%超を達成。

最後の mini-SWE-agent は興味深い両義性を持ちます。「足場の作り込みが効く」とも読めるし、逆に「モデルが賢くなれば過剰な足場は不要」とも読める。この両義性が、次の反論につながります。

SWE-bench Verified の推移

「モデル＋ハーネス」の成熟を最もよく映すのが、SWE-bench Verified（実GitHub課題500件）のスコア推移です。ただし出典の信頼度には大きな差があるので、明示しておきます。

時期	システム / 構成	スコア	出典の別
2024-08	GPT-4o（Verified公開時のベースライン）	約33%	一次（OpenAI）
2024-10	Claude 3.5 Sonnet（Bash＋Edit のミニマル足場）	49%	一次（Anthropic）
2025-05	Claude Opus 4 / Sonnet 4（標準）	72.5% / 72.7%	一次（Anthropic）
2025-11	Claude Opus 4.5（thinkingなし）	80.9%	一次（System Card）
2026〜	各種「90%超」の報告	90%+	二次情報のみ・要注意

「モデル派」の反論

ハーネスの重要性に懐疑的な立場も有力です。代表が OpenAI の Noam Brown。彼は「足場は松葉杖のようなもので、いずれ我々はそれを超えていく」と述べ、推論モデル登場前に組まれた複雑なエージェント系が、モデルの能力向上で不要になった例を挙げて「スケール（モデルの進化）に洗い流される」と主張します。

さらに技術的な反証として、実行ごとのばらつき（run-to-run variability）の研究（arXiv:2602.07150、査読前）があります。エージェント評価の実行ばらつきは大きく、ハーネスやモデル間の差が、このばらつきの範囲内に埋もれてしまう可能性を指摘しています。観測された差が真の能力差なのか、単なるノイズなのか——慎重な検証が要るというわけです。

ベンチマークの罠 — 「解けた」は本当か

最も足元を揺るがすのが、ベンチマーク自体の信頼性です。複数の査読前研究が、SWE-bench の「解決済み」パッチに問題があると報告しています。

「解けた」とされたパッチのうち 約7.8%は開発者のテストを通らず、plausibleとされたパッチの 29.6%が正解と挙動が異なる（arXiv:2503.15223、ICSE 2026採録）。
テストを強化すると、従来の合格パッチの約2割（19.71%）が棄却され、トップエージェントのスコアが 78.8% → 62.2% に低下した（arXiv:2603.00520、査読前）。
問題文の過少仕様や、issue/コメントへの解の漏洩（leakage）も多数報告されている。

つまり、リーダーボードの数字は弱いテストのおかげで通っているだけのケースが相当数あり、額面どおりには受け取れません。「ハーネスでスコアが10ポイント上がった」と言っても、その一部はベンチマークのノイズや偽陽性かもしれないのです。

結論 — どう受け止めるか

公平に総括すると、こうなります。ハーネスは確かに効く——「同じモデルでも足場で性能が変わる」のは一次情報で裏付けられた事実です。実務的にも「そこそこのモデル＋優れたハーネス＞優れたモデル＋貧弱なハーネス」（第1章）は多くの場面で成り立ちます。 しかし無限ではありません。モデルが賢くなるほど足場の一部は不要になり（mini-SWE-agentやNoam Brownの指摘）、測定の差はノイズや偽陽性に埋もれることもあります。

理解度チェック

問題 0 / 50%

SWE-bench Verifiedのスコア推移について、一次情報で裏付けられているアンカーとして正しいものはどれですか？

キーボード: 1〜4 で選択、Enter で回答