ここまで「ハーネスはモデルと同じくらい重要だ」という前提で話を進めてきました。本章では、この前提を批判的に検証します。 ハーネス論には強力な証拠がある一方、説得力のある反論もあり、そして測定の土台であるベンチマーク自体に深刻な罠が潜んでいます。 良いエンジニアは、自分が依拠する命題を疑える人です。一次情報で両論を見ていきましょう。

「効く派」の証拠

まず、ハーネスが効くという主張を支える証拠は、かなり強固です。

  • Anthropic の明言: 「エージェントの性能は、同じ基盤モデルを使っていても、このスキャフォールド次第で大きく変わりうる」。しかも彼らの高性能な実装は BashEdit2ツールだけのミニマル構成でした。
  • SWE-agent の ACI: モデルを変えずにインターフェースを設計しただけで、解決率が 3.8% → 12.5%(第5章)。
  • mini-SWE-agent: コア約100行のPython、bashのみ、LMのツール呼び出しインターフェースすら使わないのに、SWE-bench Verified で74%超を達成。

最後の mini-SWE-agent は興味深い両義性を持ちます。「足場の作り込みが効く」とも読めるし、逆に「モデルが賢くなれば過剰な足場は不要」とも読める。 この両義性が、次の反論につながります。

SWE-bench Verified の推移

「モデル+ハーネス」の成熟を最もよく映すのが、SWE-bench Verified(実GitHub課題500件)のスコア推移です。 ただし出典の信頼度には大きな差があるので、明示しておきます。

時期 システム / 構成 スコア 出典の別
2024-08 GPT-4o(Verified公開時のベースライン) 約33% 一次(OpenAI)
2024-10 Claude 3.5 Sonnet(Bash+Edit のミニマル足場) 49% 一次(Anthropic)
2025-05 Claude Opus 4 / Sonnet 4(標準) 72.5% / 72.7% 一次(Anthropic)
2025-11 Claude Opus 4.5(thinkingなし) 80.9% 一次(System Card)
2026〜 各種「90%超」の報告 90%+ 二次情報のみ・要注意

「モデル派」の反論

ハーネスの重要性に懐疑的な立場も有力です。代表が OpenAI の Noam Brown。 彼は「足場は松葉杖のようなもので、いずれ我々はそれを超えていく」と述べ、 推論モデル登場前に組まれた複雑なエージェント系が、モデルの能力向上で不要になった例を挙げて 「スケール(モデルの進化)に洗い流される」と主張します。

さらに技術的な反証として、実行ごとのばらつき(run-to-run variability)の研究(arXiv:2602.07150、査読前)があります。 エージェント評価の実行ばらつきは大きく、ハーネスやモデル間の差が、このばらつきの範囲内に埋もれてしまう可能性を指摘しています。 観測された差が真の能力差なのか、単なるノイズなのか——慎重な検証が要るというわけです。

ベンチマークの罠 — 「解けた」は本当か

最も足元を揺るがすのが、ベンチマーク自体の信頼性です。複数の査読前研究が、SWE-bench の「解決済み」パッチに問題があると報告しています。

  • 「解けた」とされたパッチのうち 約7.8%は開発者のテストを通らず、plausibleとされたパッチの 29.6%が正解と挙動が異なる(arXiv:2503.15223、ICSE 2026採録)。
  • テストを強化すると、従来の合格パッチの約2割(19.71%)が棄却され、トップエージェントのスコアが 78.8% → 62.2% に低下した(arXiv:2603.00520、査読前)。
  • 問題文の過少仕様や、issue/コメントへの解の漏洩(leakage)も多数報告されている。

つまり、リーダーボードの数字は弱いテストのおかげで通っているだけのケースが相当数あり、額面どおりには受け取れません。 「ハーネスでスコアが10ポイント上がった」と言っても、その一部はベンチマークのノイズや偽陽性かもしれないのです。

結論 — どう受け止めるか

公平に総括すると、こうなります。ハーネスは確かに効く——「同じモデルでも足場で性能が変わる」のは一次情報で裏付けられた事実です。 実務的にも「そこそこのモデル+優れたハーネス > 優れたモデル+貧弱なハーネス」(第1章)は多くの場面で成り立ちます。 しかし無限ではありません。モデルが賢くなるほど足場の一部は不要になり(mini-SWE-agentやNoam Brownの指摘)、 測定の差はノイズや偽陽性に埋もれることもあります。

理解度チェック

問題 0 / 50%
Q1

SWE-bench Verifiedのスコア推移について、一次情報で裏付けられているアンカーとして正しいものはどれですか?

キーボード: 1〜4 で選択、Enter で回答