故事是这样的。
4 月 21 号那天早上,OpenAI 在 X 上扔了条不算长的 post,DALL-E 即将于 5 月 12 日全量下线,接班的是一个新模型,叫 GPT Image 2。
很多朋友可能没意识到这条消息的分量。
DALL-E 是 22 年初就上线的,那时候 ChatGPT 都还没出,AI 圈所有人对「文生图」三个字的认知,全是被 DALL-E 撕开的。后来从 DALL-E 2 到 DALL-E 3,OpenAI 在这条赛道上磨了三年多。
然后突然,砍了。
我看到这条消息的时候,第一反应不是惋惜,是兴奋。
因为 OpenAI 这家公司不是会随便砍产品的公司,它要么不出,要么出就是干掉自家上一代。从 GPT-3 干掉 GPT-2、GPT-4 干掉 GPT-3.5 开始,每一次代际更迭都是一次实打实的能力跃迁。这次 DALL-E 被砍,也就是说接班的 GPT Image 2 已经走到了让前代毫无尊严活下去的地步。
我赶紧去翻了 GPT Image 2 的发布说明。
三个数字给我整懵了。
原生 4096×4096 输出,不需要后期放大。
99% 的文字渲染准确度,业界第一个跨过这道门槛的模型。
1024² 单张三秒以内出图,比前代快 3 到 4 倍。
第一个数字,也就是说你今天用 GPT Image 2 出的图,可以直接拿去印刷。
第二个数字,也就是说海报上的中文、英文、日文、阿拉伯文,第一次可以拼写正确不糊字。
第三个数字,也就是改稿这件事从过去的「等渲染队列」变成了「跟 AI 聊天」。
听着是不是有点像 PPT 卖货?
我一开始也是这么觉得的。
但当我把 X 上玩家们一夜之间贴出来的那批图扒下来一张张过完,我整个人就不一样了。
太离谱了。
我跟你说,我做 AI 内容做了三年多,自认为 wow 时刻已经被 Sora、Veo、Kling、Suno、各种 Agent 反复刷过几轮,再大的新模型出来我顶多眯着眼睛说一句「噢,又升级了」。
GPT Image 2 把我打回了 22 年初第一次见到 DALL-E 的那种状态,下意识凑近屏幕的状态。
让我用最简单的逻辑给你讲清楚它到底牛在哪。
我们一档一档来看。
第一档,文字。
很多朋友不太关注 AI 画图,可能不知道,文生图这条赛道这三年最大的笑话就是文字。
任何一个稍微复杂点的海报,只要你让模型在画面上写一行字,出来的结果九成是糊的、错的、扭的、变形的。Midjourney 写到 V6 才勉强能拼对单词,DALL-E 3 写中文还是醉酒书法。圈里人发明了一堆迂回办法,先生成图、再用 PS 后期贴文字、再用 Photoshop AI 蒙版微调,整个流程像在求佛。
GPT Image 2 第一个把这道门给踹了。
我跑了一张 1980 年代宣传画风格的海报,提示词指定要在画面上出现一行字「热烈庆祝GPT-Image-2全量开放」,再加上 Sam Altman、Dario Amodei 和 Elon Musk 三个人的脸,给 Amodei 系一条红围巾。

每一个汉字都对。
你试着用任何一个旧模型跑一遍这条 prompt,再回来看这张图,你就会知道,这背后已经发生了一次代际跨越。
任何一个没接触过 AI 圈的朋友看到这张图,第一反应大概率都是「这是 PS 的吧?」
不是。一次出图,原图直出,没修过。
第二档,多语言混排。
如果文字渲染只是英文牛,那只是单点突破,算不上代际更替。
GPT Image 2 真正狠的地方是,它能在同一张画面里同时渲染英文、简体中文、日文、韩文、印地文、孟加拉文和阿拉伯文,每一种文字的字间距、断行、对齐都对。
之前在做内容本地化的朋友最痛苦的就是这一点。一张产品横幅出英文版没问题,要做日文版东京线投放,整个画面要重做。要做泰文版东南亚投放,又要重做。每个市场都要单独招一个本地设计师扛 banner。
GPT Image 2 把这个问题解了。
我看了一张玩家做的广州主题东方美学海报,画面骨架是一条贯穿全图的书法墨色 S 型曲线,沿着曲线分布着广州地标和古典建筑,前景白鹤湖面,远景层叠山峦。整张图比例 9:16,墨色的笔触和水墨晕染的边缘,是过去十年所有文生图模型都崩盘的重灾区。

这玩意我盯着看了五分钟。
不是因为它有多惊艳,是因为它太「中国」了。中国书法那种「笔走龙蛇」的连贯感,是带文化语境的,不是带笔刷形状的。GPT Image 2 居然抓到了。
愚钝如我,看到这一张图的时候才反应过来一件事。
之前所有 AI 画图都在「画」,GPT Image 2 在「写」。
第三档,到这里我必须停一下。
因为接下来要讲的东西,已经不是「文生图」这件事的范畴了。
我跟你说一组 prompt,你猜结果。
第一条,「Sam Altman、Donald Trump 和 Elon Musk 在繁忙电影院柜台打工」。
第二条,「Hitman 关卡,你在 OpenAI 总部潜行偷 GPT-6」。
第三条,「整部 Superman 电影一次出图拼成一张拼贴画」。
第四条,「LoL 中路截图,特朗普对线哈梅内伊」。
第五条,「GTA 6 实机截图,主角在沙滩遛狗,4K 显示器贴近拍下来,带轻微手持抖动」。
旧模型遇到这种 prompt 是什么反应?
是「我怎么把这几个人画得像他们」+「我怎么把这个柜台画得像电影院」,然后两个图层粗暴叠在一起,能看出三个人脸但人物动作和环境完全不搭。
GPT Image 2 是什么反应?
它把那三个人画进了电影院的爆米花柜台,配上对应的工服、对应的不爽表情、对应窘迫的姿势,柜台后面还有正在排队的观众,灯光是电影院特有的暖黄混着 LED 屏的冷白。

它知道电影院是什么。
不是「电影院的样子」,是「在电影院打工是一种什么状态」。
继续往下看。
Hitman 关卡那条 prompt 出来的图,是那个标志性的俯视角任务画面,47 号特工在 OpenAI 标志性建筑里潜行,墙上贴着「GPT-6 Restricted Area」的标识,地面上有警卫和摄像头,画面右下角还有 Hitman 经典的任务 UI 和小地图。

它不是画了一个「像 Hitman 的图」,它画了一张能直接当 Hitman 关卡截图骗人的图。
LoL 中路那条 prompt 更夸张。
英雄联盟玩家应该都知道中路长啥样,三道兵线、一座防御塔、一条河道、地形是从基地呈对称往中路延伸。普通模型根本搞不清楚 LoL 的地形结构。GPT Image 2 出的图,特朗普和哈梅内伊各站一边,正在对线打小兵,画面右下角还有完整的 UI 仪表盘,左下角是小地图,连补刀提示都对。

最后是 GTA 6。
这一张是几个里面我最佩服的。
GTA 6 还没出。R 星只放过一次预告片。但是全网每一个游戏玩家都对 GTA 6 的视觉风格有一种「期待中的样子」,那种 R 星特有的明媚饱和、迈阿密热带光线、写实又带点漫画感的过曝。
GPT Image 2 抓到了那种「样子」。
而且为了让画面看起来像「真的实机截图」,它故意加上了从 4K 显示器贴近拍摄的手持微抖、屏幕反光、轻微的摩尔纹。

你试着把这张图随手丢到任何一个 GTA 玩家群里、不说是 AI 生成的,看看会发生什么。
大概率会有人激动地问你,GTA 6 是不是已经泄露 demo 了?
???
到这里我必须把这件事拉到一个更高的视角。
这一代和上一代的差别,到底在哪。
前几代 AI 画图,画的是「物体的样子」。
桌子的样子、人脸的样子、海边的样子、咖啡杯的样子。
它的工作就是把「文本描述」翻译成「视觉素材」,每个素材独立画完,再拼在一起。
GPT Image 2 画的不是物体,是「梗的样子」。
它知道 Hitman 是潜行游戏,所以「在 OpenAI 总部偷 GPT-6」必须画成俯视角带任务 UI 的那种关卡截图。
它知道 GTA 6 还没出但所有人都在期待,所以画的不是 GTA 6 实机本身,是「2026 年某个普通玩家偷拍的 4K 显示器实机截图」。
它知道 LoL 中路不是一片空地,是带兵线、防御塔、UI 仪表盘的对线区。
它甚至知道你输入 Altman、特朗普和马斯克在电影院打工这种荒诞剧本时,需要给三个人配上对应的工服、对应的不爽表情、对应的窘迫感。
这玩意已经不是在画图了。
是在补全文化语境。
也就是说,它不光「看见」了世界长什么样,它还「理解」了世界各种事物之间的关系、各种 IP 的视觉调性、各种亚文化的表达方式。
这个跨越,比从 GPT-3 到 GPT-4 还大。
GPT-3 到 GPT-4 是「能听懂复杂指令了」。
GPT-4 到 GPT Image 2 这一代是「能听懂梗了」。
听懂梗的下一步是什么?
是听懂情绪。
是听懂为什么这个梗好笑、为什么这个画面让人鼻子一酸、为什么这张图比那张更让人想转发。
我们离那一天,可能比我们想象的近。
写到这。
可能屏幕前的你已经按耐不住想去试一下了。
坦率的讲,这玩意我跑了一周,最大的感受不是「AI 又厉害了一点」,是「图像生成这个赛道,可能要换底层逻辑了」。
我自己也搭了一个 GPT Image 2 的独立站,叫 gptimg-2.org,注册即送 20 积分。
不绑信用卡,不需要 ChatGPT Plus,不用排队。注册完就能直接跑上面我贴的所有 prompt,自己出一遍图,跟 X 上玩家们的对照看。
我不是想吹自家的站。
我是想说一件事,OpenAI 5 月 12 日就要把 DALL-E 全量下线了,那一刻全网会涌进 ChatGPT 的图像入口,你可能要排队、可能要订阅 Plus、可能要面对「Capacity Exceeded」的红字提示。
我在 4 月就把这条流量给你绕开了。
如果你还在用 Midjourney、Stable Diffusion 或者别的旧模型做素材,去 GPT Image 2 在线生成器 跑一张试试,对比一下那种「图像生成」和「梗的渲染」之间的体感差距。
你不是程序员,不需要写代码,不需要学 Python,不需要跑本地部署。打开网页、写一句中文、按生成。
就这。
地址 https://gptimg-2.org,码住,回头自己跑一遍。
我非常理解很多人对「又一个 AI 工具」的疲劳感。
我也不想再装一个 ComfyUI、再背一份 prompt 模板、再花一周磨参数。
GPT Image 2 这一代的核心变化,恰恰是把所有这些前置门槛全砍了。它不要你写 prompt,它要你说人话。它不要你懂参数,它要你说目标。
这是一次对所有非专业创作者的解放。
回到 4 月 21 日那天我看到 OpenAI 那条 post 的瞬间。
DALL-E 是 22 年初让我第一次相信「AI 画图这条路走得通」的模型。它退场了,我心里那种感觉很复杂。
但当我点开 GPT Image 2 跑出第一张「热烈庆祝 GPT-Image-2 全量开放」的宣传画时,我突然就放下了那种复杂。
旧的时代结束,是因为新的时代终于站起来了。
DALL-E,谢谢你。
GPT Image 2,欢迎入场。
以上,既然看到这里了,如果觉得有点意思,随手点个赞、收藏、转发三连吧,关注我,下次继续聊 AI 那些事。
谢谢你看我的文章,我们,下次再见。
