第1章でハーネスを「モデル以外のすべて」と定義しました。本章では、この言葉がどこから来て、どのように「評価の足場」から「エージェントの足場」へと意味を広げ、 2026年に「ハーネスエンジニアリング」という名前を得たのかを辿ります。歴史を知ると、用語の混乱(後述の評価ハーネスとの取り違え)も避けられます。

起源 — ソフトウェア工学の「テストハーネス」

「harness」はLLM以前からあるソフトウェア工学の一般用語です。テスト対象のコードを駆動し、その挙動を観測するための足場——テストランナーとテストスクリプト群——を テストハーネス(test harness)と呼びます。 AI/LLM文脈の「ハーネス」は、この「対象(=モデル)を外から駆動・計測する足場」という既存メタファーをそのまま借りたものと考えるのが自然です。

第1期 — 「評価ハーネス」としての登場(2020〜2024)

AI領域で「harness」を最初に広めたのは、EleutherAI の lm-evaluation-harness です。 最初のコミットは2020年8月(Leo Gao)、最初のリリース(v0.0.1)は2021年9月。 目的は「少数ショット評価の統一フレームワーク」で、GPT-3 の評価結果を再現・比較するために作られました。 のちに Hugging Face の Open LLM Leaderboard のバックエンドとなり、事実上の標準ツールになります。

2023年10月に登場した SWE-bench(プリンストン大ほか)も、中核モジュールを明確に「evaluation harness」と呼びました。 実際のGitHub課題2,294件をモデルにパッチで解決させ、テストで採点します。 2024年6月には再現性向上のため、サンプルごとに Docker コンテナで環境を作る完全コンテナ化評価ハーネスへ移行しました。 ここで重要なのは、SWE-bench が「同じモデルでも解き方の枠組み次第でスコアが大きく変わる」現象を可視化し、後の「ハーネス論」の温床になったことです。

橋渡し期 — エージェントループの原型(2022〜2024)

「ハーネス」という語こそ使われなかったものの、この時期に「モデルを取り巻くコード層」が成果を左右するという発想が育ちます。 出発点は2022年10月の ReAct(Reason + Act)論文。推論トレースと行動(ツール呼び出し)を交互に生成する枠組みで、今日のエージェントループの原型です。 2023年には AutoGPT / BabyAGI が「プロンプト+足場コード」でLLMを自律ループ化する発想を一気に大衆化しました。

決定的だったのが2024年5月の SWE-agent 論文(NeurIPS 2024)です。 人間向けGUI(HCI)に相当するものをエージェント向けに設計するという発想で、 ACI(Agent-Computer Interface) という概念を提唱しました。 そして「インターフェース設計が性能を大きく左右する」ことを実証——SWE-bench の解決率を、従来のRAG方式の3.8%から12.5%へと引き上げたのです(モデルは同じ)。 これが「ハーネスは効く」という命題の最初の学術的裏付けになりました(詳細は第5章)。

lm-evaluation-harness 最初のコミット

EleutherAI(Leo Gao)。AI領域で「harness=評価の足場」を広めた起点。のちにOpen LLM Leaderboardのバックエンドへ

ReAct 論文

推論と行動を交互に行う枠組み。今日のエージェントループの原型(Yao, Narasimhan ほか)

AutoGPT / BabyAGI

「プロンプト+足場コード」でLLMを自律ループ化する発想を大衆化

SWE-bench 論文

実GitHub課題のベンチマーク。中核を「evaluation harness」と呼称。プリンストン大ほか

Devin 発表(Cognition)

「最初のAIソフトウェアエンジニア」。SWE-benchで13.86%(当時の旧SOTA 1.96%を大幅更新)

SWE-agent 論文

ACI(Agent-Computer Interface)概念を提唱。足場の設計で3.8%→12.5%を実証

OpenAI Codex CLI

ターミナル常駐のコーディングエージェント。「エージェント=モデル+足場」の構図を強化

「ハーネスエンジニアリング」命名期

LangChain(Trivedy)・Anthropic「Harness design」・Latent Space論争が相次ぐ

規律として体系化

Martin Fowler系(Böckeler)とAddy Osmaniが独立した規律・スキルとして整理

第2期 — 「エージェントハーネス」への意味拡張と命名(2025〜2026)

「harness」がエージェントの足場(モデル以外の全コード層)を指す語として明確に使われ、流行語化したのは2025〜2026年です。 2025年4月の OpenAI Codex CLI などターミナル型エージェントの普及がこれを後押ししました。 そして用語の中心になったのが、LangChain に掲載された Vivek Trivedy の「The Anatomy of an Agent Harness」(2026年3月10日)です。

Anthropic も「Harness design for long-running application development」(2026年3月24日)で、 「ハーネス設計は、長時間動くエージェント的コーディングの効果に実質的な影響を与える」と明言しました。 同記事は planner / generator / evaluator という3エージェント構成で、数時間に及ぶ自律コーディングを実現した事例を示しています(第6章で詳述)。

知的系譜 — 一本の糸でつながる人脈

この歴史を貫く面白い事実があります。著者リストを突き合わせると、ReAct → SWE-bench → SWE-agent が同じ人脈で連続しているのです。 ReAct 筆頭の Shunyu Yao と共著の Karthik Narasimhan は、SWE-agent にも名を連ねています。 「推論と行動を交互に行う」という ReAct のループ思想が、「インターフェース設計が性能を決める」という ACI(=ハーネス設計)へと、まっすぐ受け継がれているわけです。

graph TD
  E[lm-eval-harness\n2020 EleutherAI\n評価の足場]
  SB[SWE-bench\n2023 プリンストン]
  RA[ReAct\n2022 ループの原型]
  SA[SWE-agent\n2024 ACI概念]
  AN[Anthropic / Cognition\n設計論の対立]
  HE[ハーネス工学\n2026 命名・体系化]
  E --> SB
  SB --> SA
  RA --> SA
  SA --> HE
  AN --> HE
  style E fill:#3b82f6,stroke:#1d4ed8,color:#fff
  style RA fill:#3b82f6,stroke:#1d4ed8,color:#fff
  style SB fill:#8b5cf6,stroke:#6d28d9,color:#fff
  style SA fill:#8b5cf6,stroke:#6d28d9,color:#fff
  style AN fill:#f97316,stroke:#ea580c,color:#fff
  style HE fill:#14b8a6,stroke:#0d9488,color:#fff
知的系譜: 評価ハーネス(EleutherAI→SWE-bench)とエージェントループ(ReAct→SWE-agent)の2本の糸が、2026年の「ハーネス工学」に合流する

理解度チェック

問題 0 / 50%
Q1

AI領域で「harness(ハーネス)」という語を「評価の足場」として最初に広めた、影響力の大きいプロジェクトはどれですか?

キーボード: 1〜4 で選択、Enter で回答