第2章: ハーネスの歴史と系譜 — テストハーネスからエージェントハーネスへ | ハーネスエンジニアリング Deep Dive

第1章でハーネスを「モデル以外のすべて」と定義しました。本章では、この言葉がどこから来て、どのように「評価の足場」から「エージェントの足場」へと意味を広げ、 2026年に「ハーネスエンジニアリング」という名前を得たのかを辿ります。歴史を知ると、用語の混乱（後述の評価ハーネスとの取り違え）も避けられます。

起源 — ソフトウェア工学の「テストハーネス」

「harness」はLLM以前からあるソフトウェア工学の一般用語です。テスト対象のコードを駆動し、その挙動を観測するための足場——テストランナーとテストスクリプト群——を テストハーネス（test harness）と呼びます。 AI/LLM文脈の「ハーネス」は、この「対象（＝モデル）を外から駆動・計測する足場」という既存メタファーをそのまま借りたものと考えるのが自然です。

第1期 — 「評価ハーネス」としての登場（2020〜2024）

AI領域で「harness」を最初に広めたのは、EleutherAI の lm-evaluation-harness です。最初のコミットは2020年8月（Leo Gao）、最初のリリース（v0.0.1）は2021年9月。目的は「少数ショット評価の統一フレームワーク」で、GPT-3 の評価結果を再現・比較するために作られました。のちに Hugging Face の Open LLM Leaderboard のバックエンドとなり、事実上の標準ツールになります。

2023年10月に登場した SWE-bench（プリンストン大ほか）も、中核モジュールを明確に「evaluation harness」と呼びました。実際のGitHub課題2,294件をモデルにパッチで解決させ、テストで採点します。 2024年6月には再現性向上のため、サンプルごとに Docker コンテナで環境を作る完全コンテナ化評価ハーネスへ移行しました。ここで重要なのは、SWE-bench が「同じモデルでも解き方の枠組み次第でスコアが大きく変わる」現象を可視化し、後の「ハーネス論」の温床になったことです。

橋渡し期 — エージェントループの原型（2022〜2024）

「ハーネス」という語こそ使われなかったものの、この時期に「モデルを取り巻くコード層」が成果を左右するという発想が育ちます。出発点は2022年10月の ReAct（Reason + Act）論文。推論トレースと行動（ツール呼び出し）を交互に生成する枠組みで、今日のエージェントループの原型です。 2023年には AutoGPT / BabyAGI が「プロンプト＋足場コード」でLLMを自律ループ化する発想を一気に大衆化しました。

決定的だったのが2024年5月の SWE-agent 論文（NeurIPS 2024）です。人間向けGUI（HCI）に相当するものをエージェント向けに設計するという発想で、 ACI（Agent-Computer Interface） という概念を提唱しました。そして「インターフェース設計が性能を大きく左右する」ことを実証——SWE-bench の解決率を、従来のRAG方式の3.8%から12.5%へと引き上げたのです（モデルは同じ）。これが「ハーネスは効く」という命題の最初の学術的裏付けになりました（詳細は第5章）。

2020-08

lm-evaluation-harness 最初のコミット

EleutherAI（Leo Gao）。AI領域で「harness＝評価の足場」を広めた起点。のちにOpen LLM Leaderboardのバックエンドへ

2022-10

ReAct 論文

推論と行動を交互に行う枠組み。今日のエージェントループの原型（Yao, Narasimhan ほか）

2023-03〜04

AutoGPT / BabyAGI

「プロンプト＋足場コード」でLLMを自律ループ化する発想を大衆化

2023-10

SWE-bench 論文

実GitHub課題のベンチマーク。中核を「evaluation harness」と呼称。プリンストン大ほか

2024-03

Devin 発表（Cognition）

「最初のAIソフトウェアエンジニア」。SWE-benchで13.86%（当時の旧SOTA 1.96%を大幅更新）

2024-05

SWE-agent 論文

ACI（Agent-Computer Interface）概念を提唱。足場の設計で3.8%→12.5%を実証

2025-04

OpenAI Codex CLI

ターミナル常駐のコーディングエージェント。「エージェント＝モデル＋足場」の構図を強化

2026-03

「ハーネスエンジニアリング」命名期

LangChain(Trivedy)・Anthropic「Harness design」・Latent Space論争が相次ぐ

2026-04

規律として体系化

Martin Fowler系(Böckeler)とAddy Osmaniが独立した規律・スキルとして整理

第2期 — 「エージェントハーネス」への意味拡張と命名（2025〜2026）

「harness」がエージェントの足場（モデル以外の全コード層）を指す語として明確に使われ、流行語化したのは2025〜2026年です。 2025年4月の OpenAI Codex CLI などターミナル型エージェントの普及がこれを後押ししました。そして用語の中心になったのが、LangChain に掲載された Vivek Trivedy の「The Anatomy of an Agent Harness」（2026年3月10日）です。

Anthropic も「Harness design for long-running application development」（2026年3月24日）で、 「ハーネス設計は、長時間動くエージェント的コーディングの効果に実質的な影響を与える」と明言しました。同記事は planner / generator / evaluator という3エージェント構成で、数時間に及ぶ自律コーディングを実現した事例を示しています（第6章で詳述）。

知的系譜 — 一本の糸でつながる人脈

この歴史を貫く面白い事実があります。著者リストを突き合わせると、ReAct → SWE-bench → SWE-agent が同じ人脈で連続しているのです。 ReAct 筆頭の Shunyu Yao と共著の Karthik Narasimhan は、SWE-agent にも名を連ねています。「推論と行動を交互に行う」という ReAct のループ思想が、「インターフェース設計が性能を決める」という ACI（＝ハーネス設計）へと、まっすぐ受け継がれているわけです。

graph TD
  E[lm-eval-harness\n2020 EleutherAI\n評価の足場]
  SB[SWE-bench\n2023 プリンストン]
  RA[ReAct\n2022 ループの原型]
  SA[SWE-agent\n2024 ACI概念]
  AN[Anthropic / Cognition\n設計論の対立]
  HE[ハーネス工学\n2026 命名・体系化]
  E --> SB
  SB --> SA
  RA --> SA
  SA --> HE
  AN --> HE
  style E fill:#3b82f6,stroke:#1d4ed8,color:#fff
  style RA fill:#3b82f6,stroke:#1d4ed8,color:#fff
  style SB fill:#8b5cf6,stroke:#6d28d9,color:#fff
  style SA fill:#8b5cf6,stroke:#6d28d9,color:#fff
  style AN fill:#f97316,stroke:#ea580c,color:#fff
  style HE fill:#14b8a6,stroke:#0d9488,color:#fff

知的系譜: 評価ハーネス(EleutherAI→SWE-bench)とエージェントループ(ReAct→SWE-agent)の2本の糸が、2026年の「ハーネス工学」に合流する

理解度チェック

問題 0 / 50%

AI領域で「harness（ハーネス）」という語を「評価の足場」として最初に広めた、影響力の大きいプロジェクトはどれですか？

キーボード: 1〜4 で選択、Enter で回答