点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

昨天晚上,爆火了一周的图像生成与编辑模型 nano-banana 终于揭开了真面目。

其官方名称为 Gemini 2.5 Flash Image,在 LMArena 基准测试中一举登顶,成为当前 AI 图像编辑模型的冠军。

当前的 preview 版本已经上线 Google AI Studio、Gemini APP、Gemini API 和 Vertex AI, 大家可以免费试用。

地址:https://aistudio.google.com/

Gemini 2.5 Flash Image 不光生成快(每分钟最多调 500 次),还特别省钱(文本输入/输出  2.50、图像生成  30.00), 知识 update 到 2025 年 6 月。速度、价格、更新都拉满,妥妥的图像模型性价比之王。

基础知识介绍的差不多了,实力到底怎么样?

我们直接上实测和玩法总结。

维度一:角色一致性

这个可以说是 banana 最擅长的维度。人物的表情、姿势都很不错非常自然,几乎没有「AI 味」,4.5 星。

比如说这张特朗普和施瓦布在世界经济论坛上的合影。俩人站在台上,表情严肃得像是刚刚在心里背完一整段联合声明,全场空气都被他们的姿态冻住了。

我把这张图扔进 AI Studio 里,第一件事就是:让他们笑

特朗普笑得满脸褶子、嘴角上扬得都快压到领带上了,施瓦布的眼角甚至带了一点笑到有点眯眼的神态。整个场面一秒从高冷发言台,切换成老朋友重逢的合影现场。

也可以让特朗普激情开麦的时候,施瓦布在旁边认真聆听。

真的好真实,不知道的还以为是记者拍到的原图。

拿了两张陌生人的独照,想看看 banana 能不能硬拉成一对情侣。

结果还真行,我把他们安排到了巴黎街头,AI 不仅把两人姿势拼得很顺,还补了点气氛滤镜。

人物角色的神态和穿搭都衔接得不错,表情也没出戏,就是背景太像 Unsplash 网图,略微掉点氛围感。

然后试了张海边度假的场景。也很般配,唯一的 bug 是——

大模型迷惑行为之带两个墨镜。。

维度二:图片编辑能力

这里我必须拿出我珍藏多年的经典素材——某国际机场广告上那张离谱的“六根手指图”。

prompt 非常简单: Keep everything the same but remove one extra finger from her hand.

不画框、不涂抹、不指哪打哪,就这么一句话。

轻轻松松变成正常人。

当然,这只是功能上的补漏。你还可以试着把一切看到的东西往身上装。

有没有朋友跟我一样,小时候偷偷在手上画纹身贴纸,长大了想纹真,但又怕被家里长辈骂?

现在终于可以无痛上身,而且还不留痕。

prompt 我给出大家:

Take the butterfly tattoo design from the woman’s upper arm in the reference image and place it on the collarbone and neck area of the short-haired woman. Keep the pose, lighting, and overall aesthetic the same. The tattoo should blend naturally with the skin, as if it’s real.

纹身店发的效果图这不就来了。

整体能力还是不错的,这个维度很实用,可以打出 5 星,大家可以自己上手玩一玩。

维度三:风格迁移能力

这个维度中规中矩,完成度普遍在线,综合也是 4.5 星。我们拿一个 case 做一些演示:

先从一个 3D 半身像变成现实人像。光线还是很不错的,杯子中的水反射的细节也注意到了。

让它变成古典油画风,也能画出油彩肌理和巴洛克光影,审美上确实有点意思。

动漫风也不拉胯,干净的线条配色够梦幻,虽然稍微有点绘圈感。

但到了像素风和玩具风,完成度就明显不如前几个了,像素块太含糊,玩具风我只想说,第五人格启动!

维度四:多图融合能力

咱们也来说说缺点。

实话实说,这个模型在复杂任务处理的稳定性,尤其是多要素编辑的场景,目前来看并没有很好。有时候你以为它应该轻松搞定的事,结果还真不一定稳,2.5 星表现。

比如说最常见的换衣操作。

我用的是一个非常基础的 prompt,只是想让模特从 T 恤换成黑色吊带裙,其他都保持不变。结果 roll 了三次,才终于 roll 到一张比较像回事的版本。

而一旦你把要素拉高一些,比如:换衣 + 场景转换 + 动作改变——也就是同时调整角色、环境和行为,banana 的稳定性就开始明显下滑了。

Keep the model’s body and face unchanged, change her outfit to match the full white outfit from the reference image, and place her in a dynamic baseball scene — like she’s just hit the ball or ready to swing, with a stadium background.

上衣完全不一样,身后的英文字母也有许多外星文。

所以想要完美的图,还是得大力出奇迹,多试几轮。

维度五:创意生成能力

最后的最后,我们来玩点花的。

这个玩法最近在社交媒体上超级火,核心思路就是:用一句 prompt,把一张真人或角色照片,变成一个完整包装的 Blender 3D 手办场景。

turn this photo into a character figure. Behind it, place a box with the character’s image printed on it, and a computer showing the Blender modeling process on its screen. In front of the box, add a round plastic base with the character figure standing on it. set the scene indoors if possible

超级可爱!

而且根据这个思路,我还玩出了几个变种:

case1:油画风展示

turn this character into a classical bust figure in oil painting style. Place the bust on a marble pedestal, add a gold nameplate, and display it in an art gallery setting with soft lighting.

case2:游戏角色盒装

prompt:_create a retro-style pixel art game figure from this character, displayed as a collectible item. Include a pixelated toy box with 8-bit graphics, a pixel game console screen behind showing the modeling interface, and a label tag with “limited edition”._

以上,就是本次 Gemini 2.5 Flash Image 的全维度实测内容啦!

一句话总结:Gemini 2.5 Flash Image 确实有点东西,特别适合这种创意场景生成。但必须提醒一句,它的出图质量不算稳定,有时候细节会糊、人物脸会变,需要你多 roll 几次挑出满意图。但比起 GPT-4o,那是稳稳胜出。

ps:以图生图为主(因为这次主要的更新点都在图片编辑这边 ~)。东西确实有点多,给坚持到这里的小朋友们小花花。

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。


下载3:人工智能0基础学习攻略手册
在「小白学视觉」公众号后台回复:攻略手册,即可获取《从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。


交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐