ここまで「ハーネスはモデルと同じくらい重要だ」という前提で話を進めてきました。本章では、この前提を批判的に検証します。 ハーネス論には強力な証拠がある一方、説得力のある反論もあり、そして測定の土台であるベンチマーク自体に深刻な罠が潜んでいます。 良いエンジニアは、自分が依拠する命題を疑える人です。一次情報で両論を見ていきましょう。
「効く派」の証拠
まず、ハーネスが効くという主張を支える証拠は、かなり強固です。
- Anthropic の明言: 「エージェントの性能は、同じ基盤モデルを使っていても、このスキャフォールド次第で大きく変わりうる」。しかも彼らの高性能な実装は
BashとEditの2ツールだけのミニマル構成でした。 - SWE-agent の ACI: モデルを変えずにインターフェースを設計しただけで、解決率が 3.8% → 12.5%(第5章)。
- mini-SWE-agent: コア約100行のPython、bashのみ、LMのツール呼び出しインターフェースすら使わないのに、SWE-bench Verified で74%超を達成。
最後の mini-SWE-agent は興味深い両義性を持ちます。「足場の作り込みが効く」とも読めるし、逆に「モデルが賢くなれば過剰な足場は不要」とも読める。 この両義性が、次の反論につながります。
SWE-bench Verified の推移
「モデル+ハーネス」の成熟を最もよく映すのが、SWE-bench Verified(実GitHub課題500件)のスコア推移です。 ただし出典の信頼度には大きな差があるので、明示しておきます。
| 時期 | システム / 構成 | スコア | 出典の別 |
|---|---|---|---|
| 2024-08 | GPT-4o(Verified公開時のベースライン) | 約33% | 一次(OpenAI) |
| 2024-10 | Claude 3.5 Sonnet(Bash+Edit のミニマル足場) | 49% | 一次(Anthropic) |
| 2025-05 | Claude Opus 4 / Sonnet 4(標準) | 72.5% / 72.7% | 一次(Anthropic) |
| 2025-11 | Claude Opus 4.5(thinkingなし) | 80.9% | 一次(System Card) |
| 2026〜 | 各種「90%超」の報告 | 90%+ | 二次情報のみ・要注意 |
「モデル派」の反論
ハーネスの重要性に懐疑的な立場も有力です。代表が OpenAI の Noam Brown。 彼は「足場は松葉杖のようなもので、いずれ我々はそれを超えていく」と述べ、 推論モデル登場前に組まれた複雑なエージェント系が、モデルの能力向上で不要になった例を挙げて 「スケール(モデルの進化)に洗い流される」と主張します。
さらに技術的な反証として、実行ごとのばらつき(run-to-run variability)の研究(arXiv:2602.07150、査読前)があります。 エージェント評価の実行ばらつきは大きく、ハーネスやモデル間の差が、このばらつきの範囲内に埋もれてしまう可能性を指摘しています。 観測された差が真の能力差なのか、単なるノイズなのか——慎重な検証が要るというわけです。
ベンチマークの罠 — 「解けた」は本当か
最も足元を揺るがすのが、ベンチマーク自体の信頼性です。複数の査読前研究が、SWE-bench の「解決済み」パッチに問題があると報告しています。
- 「解けた」とされたパッチのうち 約7.8%は開発者のテストを通らず、plausibleとされたパッチの 29.6%が正解と挙動が異なる(arXiv:2503.15223、ICSE 2026採録)。
- テストを強化すると、従来の合格パッチの約2割(19.71%)が棄却され、トップエージェントのスコアが 78.8% → 62.2% に低下した(arXiv:2603.00520、査読前)。
- 問題文の過少仕様や、issue/コメントへの解の漏洩(leakage)も多数報告されている。
つまり、リーダーボードの数字は弱いテストのおかげで通っているだけのケースが相当数あり、額面どおりには受け取れません。 「ハーネスでスコアが10ポイント上がった」と言っても、その一部はベンチマークのノイズや偽陽性かもしれないのです。
結論 — どう受け止めるか
公平に総括すると、こうなります。ハーネスは確かに効く——「同じモデルでも足場で性能が変わる」のは一次情報で裏付けられた事実です。 実務的にも「そこそこのモデル+優れたハーネス > 優れたモデル+貧弱なハーネス」(第1章)は多くの場面で成り立ちます。 しかし無限ではありません。モデルが賢くなるほど足場の一部は不要になり(mini-SWE-agentやNoam Brownの指摘)、 測定の差はノイズや偽陽性に埋もれることもあります。
理解度チェック
SWE-bench Verifiedのスコア推移について、一次情報で裏付けられているアンカーとして正しいものはどれですか?
キーボード: 1〜4 で選択、Enter で回答