Claude Opus 4.7テスト：最強モデルと呼ぶにふさわしいでしょうか？

この記事を読むのに必要な時間は 39 分

Opus 4.7 は、明確な取捨選択が行われた、「ピンポイント精度」のリリースです。

原文のタイトル：《Opus 4.7 はまさか「最強モデル」を目指していなかった：Claude の速度についていけない人は Anthrop のリズムについていけない》

原文の出典：Silicon Alien Pro

2026年4月16日、Anthropic は正式に Claude Opus 4.7 をリリースし、前世代の Opus 4.6 のリリースからわずか2か月余りが経過していました。

最近の密集した製品とモデルの更新の後、新しいモデルを投入する Anthropic は自然と華々しい印象を与えます。おそらく、Opus 4.7 を「最強モデル」と呼ぶ初報をたくさん見たことでしょうし、「人類終了」、「失業警告」などが再び画面を占めているのも見たことでしょう。

しかし、Anthropic 自身が何を発表したのか見てみることは重要です。

今回のリリースのトーンは実は非常に異例です。

Anthropic はプレスリリースで明言しています：Opus 4.7 の能力は Claude Mythos Preview ほどではない—そして Mythos は Apple、Google、Microsoft、Nvidia などのごく少数のパートナーにのみ公開されており、一般の開発者やユーザーは使用できません。

さらに、この主張よりも注目に値するのは、伝説的な Mythos よりも弱いだけでなく、実際に前世代モデルよりもいくつかの重要な能力で弱くなっていることです。

Opus 4.7 自体のベンチマークテーブルにおける異常な数字：ロングコンテキストベンチマーク MRCR v2 @1M が Opus 4.6 の 78.3% から 32.2% に急降下しました。46ポイントも急落しています。

ほとんどのフラッグシップモデルは自社の看板能力を半分に切ることはありません。

しかも、これは自らの選択によるものです。

ですので、皆さんが引き続き無批判に各モデルを「最強」と賞賛する間に、実際には Anthropic のリズムについていけていないのです！

洗車の問題を改善することにも興味がありません。

Opus 4.7 は本質的に「最強モデル」を目指すつもりがないリリースであり、選択肢をはっきりと持ち、従来のトップモデルメーカーのさまざまなリリースアプローチとは異なり、今日のトップメーカーがモデル自体の「大きな飛躍」が持続不能であると明確に感じた後、集団的に向かう新たな方向です—Anthropic はある意味で、彼らが非常に成熟した製品の商品化段階でのリリース戦略に寄り添っています。

これが 4.7 の本当に重要な点かもしれません。

一、プログラミング能力：数字の背後の実質的な改善

これらの変化をよりよく理解するためには、当然ながら、まず今回が実際に何をもたらしたのかを注意深く見るのが最良です。

以下は Opus 4.7 の今回のリリースの完全な詳細です — どこで進化したのか、どこで後退したのか、開発者のリアクションはどうか、そしてマイグレーションするべきかどうか。

公式発表：https://www.anthropic.com/news/claude-opus-4-7

Opus 4.7 のプログラミングの業績が今回のリリースの中心です。

SWE-bench Verified（500 件の実際の GitHub イシュー、モデルがテストに通るパッチを書く必要があります）は Opus 4.6 から 80.8% から 87.6% に向上し、ほぼ 7 ポイントの向上となり、現在利用可能なモデルの中でトップです。Gemini 3.1 Pro の 80.6% と比較すると、明らかな差があります。

SWE-bench Pro はより難しいバージョンで、4つのプログラミング言語を網羅する完全なエンジニアリングパイプラインです。Opus 4.7 は 53.4% から 64.3% に向上し、11 ポイントのジャンプです。GPT-5.4 の 57.7% や Gemini 3.1 Pro の 54.2% と比較すると、Opus 4.7 はこのベンチマークで明らかにリードしています。

CursorBench は Cursor 社からの実際の IDE 環境でモデルのプログラミング支援品質を特に計測するベンチマークです。Opus 4.6 は 58% でしたが、Opus 4.7 では 70% までジャンプし、12 ポイントの向上です。Cursor 共同創業者のMichael Truellは公式アナウンスメントで、「これは有意義な能力のジャンプであり、難問解決時により強力な創造的推論力を持っています。」と述べています。

パートナーのテストデータ：

・Rakuten：Opus 4.7 で解決されたプロダクションタスクの数は Opus 4.6 の3倍で、コード品質とテスト品質の評価が両方とも2桁向上しています。

· ファクトリー： 任務の成功率が 10-15% 向上し、モデルが途中で停止するケースが著しく減少しました

· コグニション（Devin の背後の企業）：モデルが「数時間連続稼働し、切断されない」

· CodeRabbit： リコール率が 10% 以上向上し、「GPT-5.4 xhigh モードよりわずかに高速」

· ボルト： より長時間のアプリビルドタスクにおいて、Opus 4.7 は Opus 4.6 よりも「最大10% 向上した場合があり、以前のような後退問題は発生していません」

· Terminal-Bench 2.0： Opus 4.7 は、以前には Claude モデル（または競合他社）が処理できなかった 3 つのタスクを解決しました。そのうちの1つは複雑なコードベース間の複数のファイル推論が必要な競合状態（race condition）の修正でした

これらのデータセットはすべて同じ方向を指しています：Opus 4.7 は、長期間、複数のファイルを跨いで連続性を維持する必要がある複雑なプログラミングタスクで明らかな改善が見られます。これはちょうど Opus 4.6 ユーザーが過去2か月で最も頻繁に文句を言っていた点です — 途中でタスクを放棄し、複数ファイルのバグに遭遇して迷子になること。

2. ビジョン能力：今回のリリースで最も過小評価されている改善点

ビジョンの精度ベンチマーク XBOW が 54.5% から 98.5% に向上しました。 これは徐々に改善されたのではなく、レベルの飛躍的な変化です。

具体的な仕様の変更：

· 最大画像解像度が約115万ピクセル（長辺1568ピクセル）から約375万ピクセル（長辺2576ピクセル）に向上し、前世代の3倍以上になりました

· モデルの座標と実際のピクセルが 1:1の対応 を実現し、以前はコンピュータ使用タスクでスケール係数を手動で変換する必要がありましたが、このステップは現在不要です

· CharXiv ビジュアル推論ベンチマーク：ツールなし 82.1％、ツールあり 91.0％

これはどんなシナリオに実質的な影響を与えるでしょうか？

コンピュータの使用製品チームにとって、このアップグレードは重要かもしれません。Opus 4.6 時代のコンピュータの使用は、「デモはできるが本番で使う勇気がない」という状態にありました — クリックミス率が高すぎて予測が難しかったです。98.5％の視覚的精度は、この機能が信頼性のある展開のための基準を初めて備えていることを意味します。複数のテックブログはテストで、Opus 4.6 のクリックミス率が高すぎてコンピュータの使用製品計画を保留していた場合、4.7 がこの障害を取り除いたと直接書いています。

Reddit からの直接フィードバック（r/ClaudeAI）：ユーザーの1人が、「視覚の能力向上は非常に重要であり、以前に多くのエッジケースプロジェクトを行い、モデルが視覚フィードバックループで出力を改良するために反復する試みは常に混乱を招き、4.7 がこの問題をどのように処理するかを非常に楽しみにしています。」と述べています。

コンピュータの使用以外にも、恩恵を受けるシナリオには、ドキュメントスキャン分析（より小さなフォントの読み取り、より詳細なグラフの理解）、スクリーンショット理解、ダッシュボードアプリ、複雑な PDF 処理が含まれます。

注意すべきコストの問題：より高解像度の画像はより多くのトークンを消費します。画像の詳細に大きな要求がない場合は、入力前にダウンサンプリングすることをお勧めします。

三、最大の後退：長いコンテキストが崩壊しました

MRCR v2 @1M（100万トークン以上の長いコンテキストリコールテスト）：

· 4.6：78.3%

· 4.7：32.2%

ほぼ80％に近いところから46ポイント急落し、1/3 にまで落ちました。

この急落は、フラッグシップモデルのイテレーション史上ほとんど前例がありません。MRCR v2 は、Anthropic 自身が Opus 4.6 時代に重点的に宣伝していた能力です — 当時の Anthropic の発言では、「モデルが実際に使用可能なコンテキスト量のレベルで質的変化が起こった」とありました。4.7 になると、この「質的変化」は直ちに消失しました。

なぜそうなのか？Tokenizer が変わった。

Opus 4.7 は新しい tokenizer を使用しており、同じテキスト入力でも約 1.0-1.35 倍のトークン数が生成されます。具体的な倍率はコンテンツの種類によります。

直接的な影響は次の通りです：

· 名目上の 200K/1M のコンテキストウィンドウは維持されていますが、同じテキストが収まる量が減りました

· 長いタスクエージェントのワークフローの実際のトークン消費量が約 35% 増加しました

· 価格設定は変わっていません（入力 $5、出力 $25 per 1 百万トークン）、しかし実際の利用コストが上昇しています

Anthropic の公式発表によると、新しい tokenizer は「テキスト処理の効率を向上させた」とされていますが、ベンチマークデータによると、長いコンテキストのシナリオでは明らかな後退が見られます。

検索能力も後退しています：

· BrowseComp（Web 深層情報検索）：Opus 4.6 の 83.7% → Opus 4.7 の 79.3%

· GPT-5.4 Pro はこの項目で 89.3%、Gemini 3.1 Pro は 85.9% であり、Opus 4.7 は現在、主要な競合モデルの最下位です

検索と長いテキストは、多くの企業ユーザーが最も一般的に使用するシナリオです。

Hacker News の開発者からの直接のフィードバック（275 いいね、215 コメントのポスト、出所：HN Discussion）：

"adaptive thinking をオフにし、努力を手動で最大にすると、ベースラインのパフォーマンスに戻れました。'内部テストではうまくいっているように見えます'という主張だけではもはや十分ではありません。""4.7 ではデフォルトで人間が可読な推論トークンの要約を出力に含めなくなり、それを取得するには API リクエストに display: summarized を追加する必要があります。"

これらは実際のユーザーからのフィードバックに基づく問題です。ただし、これは Anthropic が自ら選択した選択肢でもあります。

4. 新しい行動特性：自己検証とより文字通りの指示の従属

Opus 4.7 公式アナウンスメントには、個別に取り上げる価値のある一文があります：モデルは出力を報告する前に自己を検証します。

Hex のテクニカルチームは、テスト中に具体的なケーススタディを提供しました：データが欠落している場合、Opus 4.7 は"データが存在しない"と正確に報告し、見かけ上は合理的に見えるが実際には捏造された回答を出力しないという点——これは Opus 4.6 が陥る可能性のある罠です。FinTech プラットフォーム Block によると："これによって、計画段階で論理エラーを発見し、実行速度が向上し、以前の Claude モデルを明らかに凌駕しています。"

ただし、自己検証はもう1つの続発的行動変化をもたらしました：Opus 4.7 は指示の解釈をより文字通りに行います。

これは重要な移行リスクです。Opus 4.6 で細心の注意を払って prompt を調整した場合、4.7 はおそらく 4.6 のように"暗黙の了解を読み取る"のではなく、厳密に書かれた意味に従って実行されます。Anthropic は公式のマイグレーションガイドでこの点を明確に指摘し、4.7 を展開する前に重要な prompt に対してリグレッションテストを行うことを推奨しています。

実用的な数値の参考として、Hex の CTO から次のコメントがあります：低 effort レベルの Opus 4.7 は、中 effort レベルの Opus 4.6 とほぼ同等のパフォーマンスを発揮します。

5. 推論制御メカニズム：xhigh、task budgets、および /ultrareview

Opus 4.6 では、ユーザーの信頼に影響を与える出来事が発生しました：2 月9日に適応型思考のデフォルトモードに切り替わり、3 月3日に公式で Claude Code のデフォルト推論深度が最高から中程度に調整された理由は、「知能、遅延、コストのバランスを取る」ためです。この出来事はユーザーによって"知能の低下"と呼ばれ、AMD のシニアディレクターの GitHub 投稿が広く転載されました。

Opus 4.7 の回答は、推論深度の制御権をユーザーにより明示的に委ねるというものです。

xhigh effort レベル：新たに追加された推論強度レベルで、これまでの high と max の間に位置しています。Claude Code はすべての計画されたデフォルトレベルを xhigh に更新しました。

しかし、開発者コミュニティは xhigh について直接的な疑問を持っており、Reddit ユーザーの言葉では「Opus 4.6 ではデフォルトが medium であり、4.7 ではデフォルトが xhigh です。この決定の背後にある考え方について知りたいです。なぜなら、エフォートの段階を引き上げることは、明らかにより多くのトークン消費をもたらすからです。」と述べています。

言い換えると：ユーザーが見ているのは「ユーザーに制御権を返す」という修正ですが、実際にはデフォルトのステージが引き上げられており、同じタスクを実行するためにより多くのトークンを消費することを意味します。トークナイザーの変更も重なり、これは二重のコスト増加です。

タスク予算（パブリックベータ中）：長時間のタスクに対するトークン予算制御メカニズム。開発者は合計トークン予算（最低 20K）を設定し、モデルは実行中に残高をリアルタイムで表示し、この情報を元にリソースを割り当て、途中でトークンが使い切れて中断されたり、不要な計算の浪費を防ぐことができます。

Claude Code に新たな /ultrareview コマンドが追加されました：専門のコードレビューセッションであり、バグのトラブルシューティングとデザインの問題に焦点を当てた深いレビューを実行します。Pro および Max ユーザーには月に 3 回の無料利用が提供されます。

Max ユーザー向けに auto モードが提供されました：以前はエンタープライズプランのみでしたが、現在は Max ユーザーも利用できます。Claude は auto モードで自律的に意思決定を行い、途中でユーザーに質問する回数を減らすことができます。Claude Code チームリーダーの Boris Cherny は、「Claude にタスクを与えて、実行させ、すでに検証された結果を確認する」と述べています。

第六部、スコアリング全景：勝者と敗者

以下は現在公開されている主要ベンチマークデータです（出典：Anthropic 公式システムカードおよびパートナー評価）。

コーディングおよびエンジニアリング関連（Opus 4.7 にリード）

ビジョンおよびマルチモーダル（Opus 4.7 に大きくリード）

知識ワーク（Opus 4.7 にリード）

総合評価（Opus 4.7 は明らかに進化）

汎用推論（三社が基本的に同位）

このベンチマークは飽和状態に達しており、もはや有効な競争の分かれ目ではありません。

研究系タスク（GPT-5.4 がリード，Opus 4.7 は後退）

長い文脈（Opus 4.7 が大きく後退）

選択ロジックの要約：プログラミング、エンジニアリングエージェント、ビジョン、金融法務知識ワークの4つの分野では，Opus 4.7 が明確な優位性を持っている。研究集中型タスクとオープンネットワーク検索ではGPT-5.4の方が優れています。長い文脈のシーンでは，Opus 4.7 は自前の前世代よりも大幅に劣っています。これが最も警戒すべき点です。

7. セキュリティバリケード：Mythos の礎

この部分はしばしばリリースノートの中で「セキュリティ標準文書」として見過ごされがちですが、これはAnthropicの現在の戦略を理解するための鍵となります。

4月7日、AnthropicはProject Glasswingを発表しました。これにより、Apple、Google、Microsoft、Nvidia、Amazon、Cisco、CrowdStrike、JPMorgan Chase、Broadcomの9つのパートナーにClaude Mythos Previewを提供し、防御的なネットワークセキュリティシナリオに特化させました。

MythosはAnthropicの今までで最もパワフルなモデルであり、The Hacker Newsによると、ゼロデイ脆弱性を自律的に発見し、主要なオペレーティングシステムやブラウザで数千もの以前未知の脆弱性を発見しています。しかしその能力ゆえに、これは重大な悪用リスクを伴うと見なされ、そのため一般には公開されていません。

Opus 4.7 はこの分野で最初のテストサンプルです。Anthropicはトレーニング段階でモデルのネットワークセキュリティ攻撃能力を積極的に削減し（同時に防御力を可能な限り維持し）、高リスクなネットワークセキュリティリクエストをリアルタイムで検出およびブロックする自動バリケードシステムを導入しました。公式発表文には「Opus 4.7 の実際の導入を通じて、このバリケードが効果的であるかどうかを学び、それに基づいてMythosレベルのモデルに展開するかどうかを決定します。」とあります。

言い換えると、Opus 4.7 を使用しているすべての開発者は、Anthropic がセキュリティの柵の境界を調整しているのを手伝っています。

Gizmodo による評価：このリリースは、「自社の新しいモデルの汎用性が他の選択肢に及ばないことを積極的に宣伝する大胆なマーケティング戦略」を採用しており、これはフラッグシップのリリースでは非常にまれです。

セキュリティ関係者が Opus 4.7 を合法的なペネトレーションテスト、脆弱性調査、またはレッドチームテストに使用する場合、サイバー検証プログラムへの参加申請が必要です。

8. 価格と移行: 表面的には同じ価格でも実際には上昇しています

価格設定：入力 $5/百万トークン、出力 $25/百万トークン、Opus 4.6 と同じです。API モデル ID は claude-opus-4-7 です。利用可能なプラットフォームには、Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry が含まれ、GitHub Copilot もすでに同期されています。

ただし、先に述べたように、トークナイザーの変更により、同じ入力でもトークン数が約 1.0-1.35 倍増加し、高いデフォルト努力レベルの考慮トークンが重ねられるため、「長時間のタスクエージェントワークフローに対して、Opus 4.6 と同等の設定では実際のコストが2-3倍になる可能性があります。

Anthropic は同時に、Claude Code のキャッシュ TTL を1時間から5分に短縮しました。つまり、5分以上コンピューターを離れると、コンテキストキャッシュが期限切れになり、再読み込みする必要があり、トークンの消費がより高速になります。Reddit コミュニティでは、「滝よりも速くクォータを消費する」というユーザーの不平がすでに多く見られています。

既存の Opus 4.6 ユーザーへの破壊的な変更のリスト：

1. Extended Thinking Budgets パラメーターが削除され、入力されると400エラーが返され、代わりに adaptive thinking モードを使用する必要があります

2. 温度（temperature）、top_p、top_k などのサンプリングパラメータが削除され、プロンプティングを使用して出力動作を制御する必要があります

3. より厳密なリテラルな指示に従う——Opus 4.6 向けに調整されたプロンプトは再テストが必要であり、直接モデル ID の切り替えはオンラインできません

4. トークナイザーの変更によりトークン数が変化し、実際のトラフィックでサンプルを実行した後、完全な移行を行うことが推奨されます

5. デフォルトの出力には推論トークンの要約が含まれなくなりました。要約表示を明示的に設定する必要があります。

実用的なアドバイス：Anthropic 公式移行ガイドは、本番向け代表的なトラフィックで Opus 4.7 を実行し、トークン消費とタスク品質を比較してから、決定を行うことを推奨しています。

精密な剣術を発揮でき、最も恐ろしいものです

Opus 4.7 は、明確にターゲットを絞ったアップグレードであり、明確なコストがかかるアップグレードでもあります。さらに、これらすべては Anthropic 自体が設計し、かなりの部分であなたが代償を払わなければならないものです。

このモデルの進歩の一面：

· SWE-bench Verified 87.6%、SWE-bench Pro 64.3%、CursorBench 70%、Rakuten の 3 倍の生産タスク——これらは生産環境で感じられるプログラミング能力の向上です

· ビジョン能力の再構築（XBOW 54.5% → 98.5%、3 倍の解像度、ピクセル 1:1 対応）、コンピュータが信頼できるデプロイメントの基準を初めて満たしました

· xhigh 段階、タスク予算、/ultrareview は、「知性の門」への明確な回答です

· BigLaw 90.9%、Finance Agent 64.4%、金融法務などの専門知識業務で明確にリードしています

放棄された面：

· MRCR v2 @1M が 78.3% から 32.2% に低下し、長い文脈の能力がほぼ半減しました

· BrowseComp が 83.7% から 79.3% に低下し、検索能力が GPT-5.4 と Gemini 3.1 Pro によって逆転されました

· トークナイザーの変更 + デフォルトの努力の引き上げ + キャッシュ TTL の短縮 = 三重の暗黙の価格上昇

· Mythos が圧倒し、Anthropic はより強力なカードを持っているが出せない状況です

今回のリリースは、"最強のモデル"でも"最強の公開モデル"でもなく、はっきりとした選択肢のあるイテレーションです。

最新情報によると、Claude Code の 2 月の年間収入はすでに 250 亿ドルに達しています。Opus 4.7 がオンライン上の次なる賭けです。

プログラミングとビジョンは加法、長い文脈と検索は減法、価格は名目的に変わらないが請求書が増加しています。Anthropic は Opus 4.7 を使用してバランスをとろうとしています――Opus 4.6 の残された信頼問題を修正し、Mythos レベルのモデルに対する将来のより広範囲な展開のためのセキュリティバリアの実践訓練を行います。さらに重要なことは、自社が占める先導的立場を十分に生かし、製品に対するユーザーの好意を製品の世代々にわたる欠陥があっても決して手放せない惰性へと変え、そしてリンゴ社などの成熟期に入った企業が持つ、愛憎入り混じった真に価値のあるビジネスエコシステムへのユーザーの粘着性と、真にビジネス価値のある生態系を構築しています。

原文リンク

BlockBeats の公式コミュニティに参加しよう：

Telegram 公式チャンネル：https://t.me/theblockbeats

Telegram 交流グループ：https://t.me/BlockBeats_App

Twitter 公式アカウント：https://twitter.com/BlockBeatsAsia

#Claude #Anthropic #AI #作品4.7 #人工知能

訂正/通報