Gemini 精准图像生成功能挑战 ChatGPT
这段时间 Google 高层频频预告香蕉暗号“Nano Banana”,26 日终于揭晓答案,由 Google DeepMind 推出最先进的图像生成和编辑模型“Gemini 2.5 Flash Image”,并导入 Gemini 应用程式提供用户“免费使用”。
Gemini 2.5 Flash Image 能够根据用户的文字提示,对图像进行更精准的编辑,同时保持角色或物件外观一致,这是大多数图像生成工具难以做到的地方。举例来说,若向 ChatGPT、Grok 请求更改照片中某人衬衫的颜色,结果往往会出现脸部扭曲或背景变得不自然,但是 Gemini 可望解决这个痛点。
Google 举例,透过 Gemini 2.5 Flash Image 来模糊图像背景、去除衬衫上的污渍、将整个人物从照片中移除、更改拍摄主体的姿势、为黑白照片上色等。
Gemini 2.5 Flash Image 还具备更进阶的“世界知识”,能从单一文字提示结合多个参考,例如将沙发图、客厅照片及配色设计整合成为一个和谐的生成图像。
虽然新功能让用户更轻松建立并编辑图像,但 Google 仍设下限制用户滥用的安全机制。面对 Deepfake 造假议题,AI 图像往往让用户难以分辨内容真伪,Google 会在 AI 生成图像加入浮水印,并在 metadata 加上标记。
Our new native image generation and editing is state-of-the-art, and ranked #1 in the world. And we're rolling it out for free to everyone today.
— Google Gemini App (@GeminiApp) August 26, 2025
You’ve got the tools. Now go bananas. Ideas & inspiration in the 🧵below. pic.twitter.com/mw7XyG5nes
除导入 Gemini 应用程式外,Gemini 2.5 Flash Image 透过 Gemini API 及 Google AI Studio、Vertex AI 平台提供给开发者。收费为每百万个输出词元(token)收费 30 美元,每张图片约含 1,290 输出词元(相当于每张图 0.039 美元),输入和其他输出模式则照 Gemini 2.5 Flash 既有定价。
Gemini 强化功能、推升用户
图像生成模型成为大型科技公司的重要战场,ChatGPT 今年 3 月底加入 4o 图像生成(4o Image Generation)功能,用户尝试吉卜力动画风格的图像引爆热潮,为此 OpenAI 董事长奥特曼(Sam Altman)称“我们的 GPU 快要烧坏了”,ChatGPT 用户和用量明显暴增。
现在 Gemini 应用程式藉 Gemini 2.5 Flash Image 获得重大升级,可望迎头赶上 ChatGPT 受欢迎的图像生成功能,吸引用户前来尝试,甚至帮助 Google 缩小与 OpenAI 之间的用户差距。ChatGPT 目前每週活跃用户超过 7 亿,而从 7 月 Google 财报电话会议所述,董事长皮查伊(Sundar Pichai)提及 Gemini 每月活跃用户 4.5 亿,每週活跃用户恐怕更低。
此外,Meta 上週宣布与 Midjourney 建立合作伙伴关系,获得 Midjourney 美学技术的授权,用于 Meta 未来的模型和产品。由矽谷创投 Andreessen Horowitz(a16z)支持的德国新创 Black Forest Labs 及其 FLUX 模型,仍在多项基准测试领先。