Claude Opus 4.7とは

2026年4月16日、AnthropicはClaude Opus 4.7をリリースした。 前世代のOpus 4.6から約2ヶ月というアップグレードサイクルで、 コーディング性能・ビジョン能力・エージェント性能を大幅に強化した「GA(一般提供)最強モデル」だ。 SWE-bench Proで64.3%を記録し、GPT-5.4(57.7%)やGemini 3.1 Pro(54.2%)を抑えて首位を奪還。 価格はOpus 4.6と同額(入力$5/出力$25 per 1Mトークン)で、Claude.ai・API・Amazon Bedrock・Google Cloud Vertex AI・Microsoft Foundryで利用可能だ。

Opus 4.7の最大の特徴は「コーディングとエージェント性能に全振りした実用モデル」という位置づけだ。 Anthropic内部の93タスクコーディングベンチマークではOpus 4.6から13%の解決率向上を達成し、 Opus 4.6でもSonnet 4.6でも解けなかった4つのタスクを新たに解決。 複雑なマルチステップワークフローでは14%の改善を実現しつつ、使用トークンを削減し、ツールエラーを3分の1に低減している。

7つの主要変更点

変更点 Opus 4.6 Opus 4.7 影響度
SWE-bench Pro 53.4% 64.3%(+10.9pt) 🔴 大
画像解像度 1,568px / 1.15MP 2,576px / 3.75MP(約3倍) 🔴 大
エフォートレベル low / medium / high / max low / medium / high / xhigh / max 🟡 中
タスクバジェット なし パブリックベータ(最小20,000トークン) 🟡 中
/ultrareview なし Pro/Max限定(月3回無料) 🟡 中
命令解釈 周辺コードも自動リファクタ 指示を文字通りに解釈(より予測可能) 🟡 中
API破壊的変更 extended thinking + temperature等 adaptive thinking移行、サンプリング廃止 🔴 大

ベンチマーク徹底比較

Opus 4.7の性能を、主要な競合モデルおよび限定公開のMythos Previewと比較する。 コーディングとエージェント性能ではGA最強だが、 推論やウェブ検索ではGPT-5.4 ProやMythos Previewに届かない領域もある。

コーディング性能

コーディングベンチマーク比較(%、高いほど良い)

SWE-bench Pro(マルチ言語対応のGitHub issue解決)で64.3%は、 Opus 4.6の53.4%から+10.9ポイントの大幅改善。 GPT-5.4(57.7%)を6.6pt上回り、GA公開モデルとしてはトップ。 CursorBench(自律的コーディング)でも70%とOpus 4.6から12pt向上。 一方、Terminal-Bench 2.0(コマンドライン習熟度)ではGPT-5.4(75.1%)に及ばず69.4%にとどまる。

エージェント・推論性能

ベンチマーク 内容 Opus 4.7 Opus 4.6 GPT-5.4 Mythos Preview
MCP-Atlas 複雑なツール使用 77.3%(1位) 75.8% 68.1%
Finance Agent v1.1 金融分析エージェント 64.4%(1位) 60.1% 61.5%
OSWorld-Verified コンピュータ利用 78.0%(2位) 72.7% 75.0% 79.6%
GPQA Diamond 大学院レベル科学推論 94.2% 91.3% 94.4% 94.6%
CharXiv(ツール使用) ビジュアル推論 91.0% 84.7% 93.2%
BrowseComp ウェブ検索 79.3%(低下) 83.7% 89.3% 86.9%

MCP-Atlas(複雑なツール使用)とFinance Agent(金融分析)でGA全モデル中1位を獲得。 ビジョン系のCharXivもOpus 4.6から大幅改善(84.7% → 91.0%)で、高解像度化の恩恵が如実に出ている。 ただしBrowseComp(ウェブ検索)は83.7% → 79.3%と唯一スコアが低下した領域で、 コーディング・エージェント特化のトレードオフが見える。

新機能の詳細

xhighエフォートレベル

Opus 4.7では、既存のhighとmaxの間にxhigh(extra high)エフォートレベルが新設された。 Claude Codeの全プランでデフォルトに採用されており、 「max並みの推論深度を、maxほどのレイテンシーなしで」実現する。 Hexの最高技術責任者は「低エフォートのOpus 4.7はおおよそ中程度のOpus 4.6に相当する」と評しており、 エフォート階層全体の底上げが起きている。

エフォートレベル 推論深度 レイテンシー 用途
low 最小 最速 単純な質問応答、フォーマット変換
medium 標準 速い 日常的なコーディング、要約
high 深い 普通 複雑なバグ修正、設計判断
xhigh(新規) 高深度 やや遅い マルチステップ推論、難易度の高いタスク
max 最大 最も遅い 最高精度が必要な研究・分析

タスクバジェット(パブリックベータ)

タスクバジェットは、エージェントループ全体(思考・ツール呼び出し・結果・最終出力)に対する 概算トークン目標を設定する新機能だ。 長時間実行されるデバッグセッションやエージェントタスクでの予期しない課金を防止できる。

パラメータ 設定値 説明
model claude-opus-4-7 モデルID
thinking adaptive adaptive thinkingを使用
effort xhigh 新エフォートレベル
task_budget 50000(推奨値) トークン目標。最小20,000

高解像度画像サポート

Opus 4.7はClaudeモデルとして初めて高解像度画像をネイティブサポートする。 長辺の最大解像度が1,568pxから2,576pxに拡大し、ピクセル数で約3.75MP(従来の約3倍)を処理可能に。 コンピュータ使用時の1:1ピクセルマッピング、コードスクリーンショットのフル解像度処理、 チャートの正確なデータ値読み取りなど、ビジョン系タスクの精度が大幅に向上している。 CharXivベンチマーク(ビジュアル推論)でOpus 4.6の84.7%から91.0%へ改善した背景にも、この解像度向上がある。

/ultrareviewコマンド

Claude Code(Pro/Max)に追加された/ultrareviewは、 変更内容を読み込んで「慎重なレビュアーが指摘するようなバグと設計問題」を検出する専用コマンドだ。 月3回まで無料で利用でき、PRレビュー前のセルフチェックに使える。

API移行ガイド — 5つの破壊的変更

Opus 4.7には複数の破壊的API変更が含まれており、 Opus 4.6からの移行にはコード修正が必要だ。以下の5項目を順にチェックしてほしい。

1. Extended Thinking → Adaptive Thinking

budget_tokensを指定するextended thinking方式は廃止され、adaptive thinkingに一本化された。 従来のコードはHTTP 400エラーになる。

項目 旧(Opus 4.6) 新(Opus 4.7)
thinking設定 type: enabled, budget_tokens: 8192 type: adaptive
結果 正常動作 旧方式はHTTP 400エラー

2. サンプリングパラメータの削除

temperaturetop_ptop_kの3パラメータが完全に削除された。 出力の多様性はプロンプトで制御する方式に変更。

項目 旧(Opus 4.6) 新(Opus 4.7)
temperature 0.0〜1.0で指定 削除(エラー)
top_p 0.0〜1.0で指定 削除(エラー)
top_k 整数で指定 削除(エラー)
代替手段 プロンプトの指示で出力多様性を制御

3. 思考内容のデフォルト非表示

思考ブロックの内容がデフォルトでになった。 ユーザーに推論プロセスを表示する場合は明示的なオプトインが必要。

思考内容を表示するには、thinkingパラメータにdisplay: summarizedを追加する。 明示的にオプトインしない限り、思考ブロックの内容は空になる。

4. トークナイザーの変更

新しいトークナイザーにより、同一入力で1.0〜1.35倍のトークンが生成される可能性がある。 max_tokensにバッファを持たせることが推奨される(例: 8,192 → 12,000)。

5. 命令解釈の厳密化

Opus 4.7は指示をより文字通りに解釈する。 「ログイン機能を修正」と言えば、ログイン機能だけを修正し、周辺の認証ミドルウェアまで自動リファクタリングすることはない。 意図した範囲が広い場合は、プロンプトで明示的に指定する必要がある。 これは予測可能性の向上であり、改善と言える一方、既存プロンプトの再チューニングが必要になるケースもある。

Mythos Previewとの関係

Opus 4.7のリリースで異例なのは、Anthropicが公式に「Mythos Previewより広範な能力では劣る」と明言している点だ。 Claude Mythos Previewは選定されたエンタープライズ・政府パートナーのみに限定提供されており、 SWE-bench Proで77.8%、GPQA Diamondで94.6%、OSWorldで79.6%とすべてのベンチマークでOpus 4.7を上回る。

ベンチマーク Opus 4.7 Mythos Preview 差分
SWE-bench Pro 64.3% 77.8% -13.5pt
SWE-bench Verified 87.6% 93.9% -6.3pt
Terminal-Bench 2.0 69.4% 82.0% -12.6pt
GPQA Diamond 94.2% 94.6% -0.4pt
HLE(ツール使用) 54.7% 64.7% -10.0pt
CharXiv(ツール使用) 91.0% 93.2% -2.2pt

Anthropicがこのような「自社モデル同士の格差」を公表する意図は明確だ。 Mythosの存在を示すことでエンタープライズ顧客に「さらに上がある」と認知させ、 限定アクセスへの需要を喚起する——一種の「フラッグシップ・ティーザー」戦略だ。 開発者にとっての実用的な含意は、GA最強を使いたいならOpus 4.7一択、 ただしMythosのGA化が今後のアップデートサイクルで起こり得るということだ。

理解度チェック

理解度チェック

問題 0 / 40%
Q1

Claude Opus 4.7のSWE-bench Proスコアとして正しいものはどれか?

キーボード: 1〜4 で選択、Enter で回答