Gemini 2.5 Flash Image：精准图像生成功能挑战 ChatGPT

这段时间 Google 高层频频预告香蕉暗号“Nano Banana”，26 日终于揭晓答案，由 Google DeepMind 推出最先进的图像生成和编辑模型“Gemini 2.5 Flash Image”，并导入 Gemini 应用程式提供用户“免费使用”。

Gemini 2.5 Flash Image 能够根据用户的文字提示，对图像进行更精准的编辑，同时保持角色或物件外观一致，这是大多数图像生成工具难以做到的地方。举例来说，若向 ChatGPT、Grok 请求更改照片中某人衬衫的颜色，结果往往会出现脸部扭曲或背景变得不自然，但是 Gemini 可望解决这个痛点。

Google 举例，透过 Gemini 2.5 Flash Image 来模糊图像背景、去除衬衫上的污渍、将整个人物从照片中移除、更改拍摄主体的姿势、为黑白照片上色等。

Gemini 2.5 Flash Image 还具备更进阶的“世界知识”，能从单一文字提示结合多个参考，例如将沙发图、客厅照片及配色设计整合成为一个和谐的生成图像。

虽然新功能让用户更轻松建立并编辑图像，但 Google 仍设下限制用户滥用的安全机制。面对 Deepfake 造假议题，AI 图像往往让用户难以分辨内容真伪，Google 会在 AI 生成图像加入浮水印，并在 metadata 加上标记。

Our new native image generation and editing is state-of-the-art, and ranked #1 in the world. And we're rolling it out for free to everyone today.

You’ve got the tools. Now go bananas. Ideas & inspiration in the 🧵below. pic.twitter.com/mw7XyG5nes
— Google Gemini App (@GeminiApp) August 26, 2025

除导入 Gemini 应用程式外，Gemini 2.5 Flash Image 透过 Gemini API 及 Google AI Studio、Vertex AI 平台提供给开发者。收费为每百万个输出词元（token）收费 30 美元，每张图片约含 1,290 输出词元（相当于每张图 0.039 美元），输入和其他输出模式则照 Gemini 2.5 Flash 既有定价。

Gemini 强化功能、推升用户

图像生成模型成为大型科技公司的重要战场，ChatGPT 今年 3 月底加入 4o 图像生成（4o Image Generation）功能，用户尝试吉卜力动画风格的图像引爆热潮，为此 OpenAI 董事长奥特曼（Sam Altman）称“我们的 GPU 快要烧坏了”，ChatGPT 用户和用量明显暴增。

现在 Gemini 应用程式藉 Gemini 2.5 Flash Image 获得重大升级，可望迎头赶上 ChatGPT 受欢迎的图像生成功能，吸引用户前来尝试，甚至帮助 Google 缩小与 OpenAI 之间的用户差距。ChatGPT 目前每週活跃用户超过 7 亿，而从 7 月 Google 财报电话会议所述，董事长皮查伊（Sundar Pichai）提及 Gemini 每月活跃用户 4.5 亿，每週活跃用户恐怕更低。

此外，Meta 上週宣布与 Midjourney 建立合作伙伴关系，获得 Midjourney 美学技术的授权，用于 Meta 未来的模型和产品。由矽谷创投 Andreessen Horowitz（a16z）支持的德国新创 Black Forest Labs 及其 FLUX 模型，仍在多项基准测试领先。