Gemini 3.5 Flashに意外な弱点　Android開発ベンチで旧モデルに敗北

Googleが最新のAndroid向けAIコーディングベンチマーク「Android Bench」の結果を更新し、同社の新型AIモデル「Gemini 3.5 Flash」の実力が明らかになりました。しかし、その内容はGoogleがこれまでアピールしてきた性能イメージとはやや異なるものでした。

Gemini 3.5 Flashは、高速かつ低コストな「Flash」シリーズの最新モデルとして登場したにもかかわらず、Androidアプリ開発に関する実践的なテストでは上位に食い込めず、旧世代モデルを下回る結果となったのです。

Android Benchでトップ5入りを逃す

Android Benchは、さまざまなAIモデルにAndroidアプリ開発関連の課題を実行させ、その能力を比較するベンチマークです。実際の開発シナリオに近いタスクを通じて、コード生成や問題解決能力を評価します。

今回初めてGemini 3.5 Flashがランキングに加わりましたが、結果は総合6位。スコアは63.7ポイントでした。

首位を獲得したのはOpenAIのGPT 5.5で、スコアは74ポイント。2位にはGPT 5.4とGoogleのGemini 3.1 Pro Previewが並び、いずれも72.4ポイントを記録しました。さらに、AnthropicのClaude OpusシリーズもGemini 3.5 Flashを上回る結果を残しています。

Googleの最新モデルでありながらトップ5入りを逃したことは、少なからず業界に驚きを与えています。

高性能どころか「高コスト」が目立つ結果に

今回、より大きな話題となっているのはコスト面です。

Googleの公開データによると、Gemini 3.5 Flashは1回の実行あたり平均355.9トークンを消費。これをコスト換算すると、1回あたり平均147.1ドルに達したとされています。1ドル＝160円で計算すると、約2万3500円に相当します。

これはランキングに登場した全モデルの中で最も高額な水準でした。

従来、「Flash」はGeminiシリーズの中でも高速かつ低価格なモデルとして位置付けられてきました。そのため、性能面で旧モデルに劣りながら、コストは大幅に高いという今回の結果は、多くの開発者にとって予想外だったといえるでしょう。

Googleの説明とのギャップも

GoogleはGoogle I/O 2026において、Gemini 3.5 Flashを「これまでで最も強力なFlashモデル」と紹介していました。

AIエージェントへの対応強化や複雑なワークフローへの適応力、優れたコーディング能力などをアピールし、一部の社内ベンチマークではGemini 3.1 Proを上回る性能を示したと説明しています。また、競合する最先端モデルと比較して最大4倍高速な出力も実現するとしていました。

しかし、今回のAndroid Benchでは異なる結果が示されました。少なくともAndroidアプリ開発という特定分野においては、Gemini 3.1 Pro Previewの方が高いスコアを記録し、コストもGemini 3.5 Flashの約3分の1に抑えられているとされています。

今後の改善に期待

もちろん、今回評価されたGemini 3.5 Flashは今後のアップデートによって改善される可能性があります。また、今後登場が予想されるGemini 3.5 ProがGoogleの掲げる性能目標を実現する存在になる可能性もあるでしょう。

とはいえ、今回の結果は「新しいモデル＝必ずしも優れているとは限らない」という現実を改めて示した形となりました。AI開発競争が激化する中、単純な性能だけでなく、コスト効率や実際の用途における使い勝手がますます重要な評価軸になっていきそうです。

ソース