我承认 Anthropic 和 Google 都很强,但是今天,OpenAI 要更胜一筹。
一夜之间,AI 做图以假乱真的能力,可能要提高 1000 倍了。
让乔布斯代言小米SU7,海报它能直接安排上。
让奥特曼直播卖课,截图也直接以假乱真。
让它生成非主流的QQ空间截图,它连 BGM 和歌手都一一对应准确。
甚至还能直接做出库克官宣卸任苹果CEO,宣布由老罗来接任的微博截图。
底下还自动拉来了王自如的评论。
这就是 OpenAI 刚发布的新图像模型 GPT-image-2。
上面看到地那些离谱图片,都是用它来直接搓出来的。
毫不夸张地说,AI 做图的能力,从来没有如此强过。
在大模型竞技场里,当大家的平均分都在1200分左右厮杀的时候。
GPT-image-2 直接给干到了 1500 分,遥遥领先其他模型。
而且这玩意还不是个期货。
可能是 Sora 被关闭了之后,OpenAI 的算力变的更多了。
所以山姆奥特曼也是大放善心,现在不管你是免费用户还是付费用户,都可以在 ChatGPT 的官网里直接用上。
就连 API 也是直接开放,不但量大管饱,而且价格还只要 Nano Banana Pro 的 1/4。
我们也帮大家简单的试了一下。
只要你上传一张参考图片,它就可以精准还原你的形象。
有了它,你可以随意穿越到任何游戏里。
或者是和任何角色合影。
生成这个角色和原神里的旅行者(女)绝区零里的铃,崩坏星穹铁道里的星 这三个角色的合影,背景是无垠的宇宙
而且你也可以用它来生成各种奇奇怪怪的图像。
比如原神和塞尔达的联名海报。
宝可梦和幻兽帕鲁的联动新闻
甚至就连火锅(眼睛健康版)在白宫散步的照片也能一键生成。
除此之外,新模型还有着非常丰富的知识储备,堪称 AI 界的懂王。
即使你问到了它不懂的东西,GPT-image-2 也会直接开始进入思考,现查现学。
比如我直接给他出了到一元二次方程的题,要求给个教材的截图。 它是真的带脑子,直接一步步推到出了答案。
经常上学的网友也可以验算看看,看看答案对不对。
与此同时,GPT-image-2 还能生成非常稳定,高质量的中文文本,在它给出的图像里,文字出现崩坏的概率小了非常多。
让它做个西湖醋鱼的制作流程也能一次完成,效果要比 Nano Banana Pro 不知道要高到哪里去了
帮我制作西湖醋鱼这道菜的详细制作流程图,真实风格,适用于小红书图文比例(右边是 Gemini 做的。
当然,差评君用下来感觉最重要的是,这次的 GPT-image-2 的模型审美非常好。
你不用费太多力气写一大堆提示词,他就能给你出一张 90 分的图片。
像是下面这种红白机的宣传海报。
生成一张苹果风格的任天堂红白机宣传海报
抖音的女主播带货截图,甚至今天你在前面看到的绝大多数案例。
都是只要用了一句话,或者几句话的描述就能做出来的。
你还能发现,在生成抖音截图里,AI 观众还会在弹幕里实时交流,给咱们开演一波小剧场。
这也是它相比过去模型所不同的地方。
过去你想让 AI 做一张抖音截图,你可能得告诉它这张图的最上面是什么,最右边得放什么,下面放什么。
整个画面必须像真实手机截图,而不是设计图。需要完整呈现短视频直播 UI 叠层:
顶部有状态栏,显示时间、电量、信号、Wi-Fi;
左上角有主播头像、用户名、直播中标识、实时在线人数;
右侧有一排直播交互按钮,比如点赞、评论、分享、礼物、关注;
底部有半透明评论区,观众弹幕不断刷过,内容是中文,口语化、简短、像真实直播弹幕;
右下角有礼物特效入口、购物袋入口或者更多功能按钮;
底部输入栏有“说点什么…”之类的互动区域;
直播界面中有平台风格的红色或高亮直播标识;
整体布局必须符合真实中国直播平台的移动端视觉习惯。
给 AI 写一大堆提示词。
但现在,只要简单说一句话,AI就会自动搞懂你的意思。
搞不懂的地方,它还会自己去查。
和年初的 Seedance 2.0 一样,用好 AI的门槛再一次被狠狠的打下来了。
有图有真相的时代,算是彻底的和我们切割了。
新模型做出来的很多图像,不但能够轻松骗过我们的眼睛。
就连专门的 AI 图像检测助手也是直接睁眼瞎了。
今天编辑部的小伙伴玩了一天之后,直接被这个模型以假乱真的能力给搞到破防,直接发出我们这辈完蛋了的感慨。
大家在群里看到的每一张图,都要思考这玩意是不是 AI 给做的。
不过,虽然现在的新模型能力已经很强了,但是在高强度的试用后,我们还是发现了一些缺点,哦不,美中不足的地方。
最让我绷不住的是,我们在一些图片右下角。
隐隐约约地发现了 Gemini 的水印。
不知道是不是蒸馏过nano banana的数据。或者说网上的图片数据,已经被nano banana给污染霍霍完了。
导致新模型被这些有毒数据污染了。。
同时,我们还发现这次的 GPT- image-2 虽然生成出来的汉字虽然很稳,但是同时,这些字也失去了灵魂。
如果我们直接让他来生成一幅书法真迹,你会发现它做的好像还挺有模有样的。
生成《兰亭序》真迹放在桌面上的图片
可一旦你让他把这幅书法字帖里的字给换掉,大家就会发现, 它做出来的字,印刷感还是蛮重的,完全不是手写的风格。
再包括很多文字,在放大细看的情况下,还是有一丝微崩。
也期待友商或者下个版本,能彻底堵上这些Bug吧。
AI 圈真的像是有一种轮回,先是OpenAI一骑绝尘,之后谷歌逆袭,再来个Anthropic砸场。还有个随时可能掀桌的 DeepSeek。
而现在,我们的位置,又来到了这里。
另外再友情提醒一下,从 GPT-image-1 爆火、全网刷屏吉卜力头像,到 Nano Banana 魔性出圈、网络上被 AI 生成图疯狂刷屏,再到如今 Image-2 直接降维打击,前后其实才一年多。
已经不敢想,明年的这个时候,AI会进化成啥样了。
来源:差评君
