
Google DeepMindは、AI画像生成機能の新バージョン「Gemini 2.5 Flash Image」を発表しました。
コードネーム「nano-banana」と呼ばれるこのモデルは、これまで課題とされてきた“編集の一貫性”を大きく改善し、直感的な自然言語による画像操作や複数回にわたる編集に対応しています。
目次
同じ人物・モノを複数シーンで正確に再現
新モデル最大の特徴は「キャラクターの一貫性」です。これにより、同じ人物やペット、商品などを複数のシーンにわたって一貫して再現できるようになりました。服装や髪型、背景、時間帯が異なっても、元の特徴を維持したまま自然な変化を加えることが可能です。
これまでのAI画像生成では、たとえば「背景だけ変えたい」「服だけ変更したい」といった小さな修正であっても、全体が大きく変化してしまう問題がありました。「nano-banana」はこの点を改善し、画像の細部までコントロールできるようになっています。
複数画像の統合や自然言語による細かい指示も対応
Gemini 2.5 Flash Imageは、以下のような高度な画像編集に対応しています:
- 複数の画像を自然に合成
- 「部屋に観葉植物を追加」などの自然言語での編集指示
- 一度生成した画像に何度も手を加える「マルチターン編集」
- ブランドイメージの統一やプロダクトの角度違いでの表示など、商用利用も想定
たとえば、ペットと自分の写真を合成して新たなシーンを作ったり、壁紙のデザインを差し替えて部屋の模様替えをシミュレーションすることも可能です。
セキュリティにも配慮、ウォーターマークを二重実装
安全性に配慮し、生成された画像には以下の2つの透かしが埋め込まれています:
- 視認可能なAIマーク
- 検出可能なデジタル透かし「SynthID」
このSynthIDは、画像のトリミングや色調補正といった一般的な加工が施されても検出可能とされており、生成画像の出所確認がしやすくなるとしています。
利用はGeminiアプリやAPI経由で、価格は1画像あたり約0.039ドル
「nano-banana」は、以下のサービスを通じて利用できます:
- Geminiアプリ(一般ユーザー向け)
- Gemini API、Google AI Studio、Vertex AI(開発者・法人向け)
価格は、出力トークン100万件あたり30ドル。1枚の画像あたり約1,290トークンに相当し、1枚あたり約0.039ドル(約6円前後)という計算です。
画像編集における“精度と一貫性”をAIが新たなレベルに引き上げる
Google DeepMindの「Gemini 2.5 Flash Image」は、従来のAI画像編集で見られた“意図しない改変”という課題に対する明確な解決策です。キャラクターの一貫性、自然言語による編集指示、複数回の編集対応など、実用性の高い機能を網羅しており、今後の画像生成AIの新たな基準となる可能性があります。安全性の観点からもウォーターマークの実装が進んでおり、商用利用も現実的です。
現時点では、日本語UIでの展開や国内向け詳細についての発表はありませんが、今後の展開にも注目が集まりそうです。