グラフィック：Claudeが使うほど愚かになる：節約の代償、API請求書が100倍に増えました

この記事を読むのに必要な時間は 15 分

300 ドルから 4 万ドルに増加

数日前、AMD AI チームの責任者ステラ・ローレンツォは、Claude Code 公式リポジトリで、「Claude Code が複雑なエンジニアリングタスクには使用できなくなった」と題された課題レポートを公開しました。これはユーザーの感情的な不平ではなく、6,800 件のセッションに基づく定量分析です。これは、AI コミュニティが最も直面したくない問題を明らかにし、その中に特に目立つ数字があります：省算力のために行われたAnthropicチームの設定変更により、このチームのAPIの月額請求額が345ドルから42,121ドルに増加しました。

ローレンツォのチームは、235,000 回のツール呼び出し、18,000 件のヒントワードを追跡し、2026年2月以降のClaude Codeのシステムパフォーマンス劣化を記録しました。このレポートは後にThe Registerによって報じられ、開発コミュニティで2週間にわたる論争の嵐を巻き起こしました。

Anthropic Claude Code チームの責任者ボリス・チェルニイは、Hacker Newsで説明を行いました。2月9日にOpus 4.6と共にリリースされた際、モデルが自律的に思考時間を決定する「適応思考」メカニズムがデフォルトで有効になりました。3月3日、Anthropicはデフォルトの思考強度を85に引き下げました。公式の説明は、「知能、遅延、コストの最適なバランス点における」ものでした。これら2回の調整の実際の効果は、データによってはっきりと示されています。

思考深度が四分の三減少

ステラ・ローレンツォのGitHub Issueデータによると、Claude Codeの平均思考深度は2か月間で3段階の崩壊を経験しました：最高クオリティ期の1月末の2,200文字から、2月末には720文字にまで落ち込み、67%の低下となりました。3月にさらに縮小し、560文字にまで落ち込み、ピークから75%減少しました。

ここでの思考深度は、モデルが回答を提供する前にどれだけ「内部推論」に投入するかを反映する代替指標です。2,200 文字と560 文字の差は、おおよそ「下書きを書いてから回答する」から「2秒考えて口に出す」に退化することに相当します。

ローレンツォはさらに、3月初に導入された「思考内容非表示」機能（redact-thinking-2026-02-12）が、この期間にモデルの思考プロセスを遮断し、ユーザーが縮小を直感的に認識できないようにしたことを指摘しました。ボリス・チェルニイは、これが単なるインターフェースの変更であり、基礎推論には影響しないと主張しています。両者の説明は技術的に妥当ですが、ユーザーから見ると、その効果には違いがありません。

Boris Cherny は後に、手動で effort を最高値に設定しても、自己適応型思考メカニズムは一部のラウンドで推論力不足を割り当てる可能性があり、幻覚的な内容が生じる可能性があると認めました。「最高努力を回復する」というのは完全な解決策ではなく、それはノブを元の位置に戻すだけであり、元の確実性に戻すわけではありません。

「リサーチャー型プログラマー」から「ブラインド変更型プログラマー」へ

Stella Laurenzo のレポートには、考察の深さよりも率直な詳細がありました：コードを変更する前、モデルが自発的に関連するファイルをいくつ読むか。

GitHub Issue のデータによると、良好期の平均リード変更比は 6.6 であり、コードを変更する前に、モデルは平均して 6.6 個のファイルを読んで文脈を理解します。退化期では、この数値が 2.0 に落ち、70% 減少します。さらに深刻なことに、コード変更の約三分の一が、モデルが対象ファイルを読まずに直接手を加える状況で発生しています。

Laurenzo はこれを「ブラインド変更」（blind edits）と呼びました。エンジニアリングの観点からは、これは関数の署名を見ずに、変数の型を知らずにコードを書き始めるプログラマーに相当します。「私のチームのすべてのシニアエンジニアが同様の体験をしています。」彼女はレポートで書いており、「Claude は現在、複雑なエンジニアリングタスクを遂行することに信頼されることはできません。」と述べています。

リード変更比が 6.6 から 2.0 に減少することは、行動指標の変化に見えますが、その下にはタスクの成功率が急速に低下していることがあります。現代のコードベースの複雑さにより、どんな変更も複数のファイル間の依存関係を伴います。コンテキストの調査をスキップして直接変更を加えると、「誤答」ではなく、「正しそうでも、下流で新たなエラーを引き起こす可能性がある」エラーが発生します。この種のエラーのトラブルシューティングコストは、1回の明確な不正解よりもはるかに高くつきます。

「節約」の逆転、計算が間違っていた

これは全体的な出来事の中で最も直感に反する一連の数字であり、同じ GitHub Issue データから来ています：Stella Laurenzo チームの Claude Code API の月間呼び出しコストは、2026年2月の345ドルから、3月には42,121ドルに急上昇し、122倍に増加しました。

Anthropic は努力を低下させることで単一呼び出しのトークン消費を減らし、コストを削減しようとしました。しかし、結果は逆でした。退化したモデルでは、多数の「推論ループ」（Reasoning Loops）が発生し、回答が度重なる中で自己否定し続け、繰り返し始めるため、使用されるトークンは節約される量をはるかに超えました。Stella Laurenzo のデータによると、同時期にタスクを自発的に中断するユーザーの割合が12倍に急増し、開発者は干渉し、修正し、再提出を繰り返す必要がありました。

背後の論理は、システム全体の間違いです。複雑なタスクで計算リソースを削減することは、単純にコストを比例して下げることではありません。一定の思考のしきい値を下回ると、モデルは誤った方向に進み始め、全体のコストは逆に増大します。努力を低く設定することで簡単なクエリではお金が節約されますが、コードエンジニアリングのタスクでは請求書が膨れ上がりました。

「知性低下」、GPT-4 が三年前にすでにやっていたこと

2023年7月、スタンフォード大学とカリフォルニア大学バークレー校の研究チームはarXivで「How is ChatGPT's behavior changing over time?」という論文を発表し、同じ出来事がGPT-4で起こったプロセスを記録しました。

この研究データによると、2023年3月のGPT-4は、生成されたコードの50%以上が直接実行可能でした。しかし、6月までにこの割合は10%にまで低下し、80%以上の低下率が見られました。期間は3か月です。同時期に素数判別の正解率が97.6%から2.4%に低下しました。OpenAIの回答とAnthropicの回答は非常に類似しており、「最適化調整が背後にあり、通常のイテレーションの一環である」とされています。

両方の物語の構造はほぼ同じです。あるAI企業が、モデルの能力に影響を与えるパラメーターを静かに調整し、ユーザーが気づき、企業が調整を行ったことを認めたが、その理由を「より妥当なリソース配分」と説明しています。GPT-4の劣化は2023年に発生し、クロードの劣化は2026年に発生しました。二つの事例は3年の間隔がありますが、脚本は同じです。

これは特定の企業の特別なミスではありません。AIサブスクリプションモデルの経済ロジックにより、推論コストが価格設定範囲を上回った場合、ベンダーは同じ圧力に直面します。デフォルトの思考強度を低く設定することは、現在のコストとパフォーマンスの間で最も簡単に切り替えられるツマミです。ユーザーが知覚するのはモデルが「愚かになった」ことです。ベンダーが節約したのは、各呼び出しの端数トークンコストです。

Boris Chernyは技術的な解決策を提供し、ユーザーは/effort highコマンドを使用するか、構成ファイルを変更して、考える強度を手動で最大レベルに戻すことができます。この解決策は技術的には有効ですが、同時に、「最高のパフォーマンス」はもはやデフォルト設定ではないという意味です。

345ドルから42,121ドル、消費されたのは予算だけでなく、ある仮定:ベンダーが行ったデフォルトの構成変更は、ユーザーの利用体験を向上させるためだったということです。

BlockBeats の公式コミュニティに参加しよう：

Telegram 公式チャンネル：https://t.me/theblockbeats

Telegram 交流グループ：https://t.me/BlockBeats_App

Twitter 公式アカウント：https://twitter.com/BlockBeatsAsia

#AI

訂正/通報