谷歌ビジョンバナナ：コンピュータビジョンの「GPT-3時代」？一般図形モデルが専門のビジョンモデルを打ち負かす

根擊するビーティングモニタリングによると、Google チーム（He Kaiming、Xi Sai Ning などの著者を含む）は論文を発表し、Vision Banana を提案しました。これは、自社の画像生成モデル Nano Banana Pro（つまり Gemini 3 Pro Image）を軽量命令微調整して、それを汎用ビジョン理解モデルに変換するものです。核心的な手法は、すべてのビジョンタスクの出力を RGB 画像でパラメータ化し、セグメンテーション、深さ推定、表面法線推定などの知覚タスクをすべて画像生成で行い、各タスクのための専用アーキテクチャやトレーニング損失を設計する必要がないようにすることです。

評価は画像セグメンテーションと 3D ジオメトリ推論の 2 大カテゴリのタスクをカバーしています。セグメンテーションの場合、セマンティックセグメンテーション（画像中の各ピクセルにクラスを付与する、例：「road」「pedestrian」「car」）は Cityscapes で専用セグメンテーションモデル SAM 3 4.7 ポイントを上回りました。指示表現セグメンテーション（自然言語の説明に基づいて対応する物体を見つけてセグメンテーションする、例：「left side dog with a hat」）も SAM 3 Agent を上回りました。ただし、インスタンスセグメンテーション（同一カテゴリの異なるインスタンスを区別する、例：画像内の 5 匹の犬を個別に示す）ではまだ SAM 3 には及びません。3D の場合、メトリック深度推定（単一の写真から各ピクセルのカメラへの実際の物理的距離を推定する）は、4 つの標準データセットで平均精度 0.929 を達成し、専用モデル Depth Anything V3 の 0.918 を上回りました。さらに、合成データのみを使用してトレーニングし、実際の深度データを使用せず、推論時にカメラパラメータも必要としません。表面法線推定（物体の表面の方向を推測する）は 3 つの屋内基準で最適な結果を収めました。

微調整は、わずかなビジョンタスクデータを元の画像生成トレーニングデータに混入させるだけであり、モデルの画像生成能力にほとんど影響を与えませんでした。生成品質の評価では、元の Nano Banana Pro と同じレベルでした。この論文では、画像生成の事前トレーニングが、言語分野のテキスト生成の役割に似ていると主張されています。モデルは画像生成を学習する過程で、画像理解に必要な内部表現を既に習得しており、命令微調整はそれを解放するだけだと述べられています。

原文リンク

訂正/通報