我眼睁睁看着 DALL-E 死了，接班的 GPT Image 2 给我整懵了。

故事是这样的。

4 月 21 号那天早上，OpenAI 在 X 上扔了条不算长的 post，DALL-E 即将于 5 月 12 日全量下线，接班的是一个新模型，叫 GPT Image 2。

很多朋友可能没意识到这条消息的分量。

DALL-E 是 22 年初就上线的，那时候 ChatGPT 都还没出，AI 圈所有人对「文生图」三个字的认知，全是被 DALL-E 撕开的。后来从 DALL-E 2 到 DALL-E 3，OpenAI 在这条赛道上磨了三年多。

然后突然，砍了。

我看到这条消息的时候，第一反应不是惋惜，是兴奋。

因为 OpenAI 这家公司不是会随便砍产品的公司，它要么不出，要么出就是干掉自家上一代。从 GPT-3 干掉 GPT-2、GPT-4 干掉 GPT-3.5 开始，每一次代际更迭都是一次实打实的能力跃迁。这次 DALL-E 被砍，也就是说接班的 GPT Image 2 已经走到了让前代毫无尊严活下去的地步。

我赶紧去翻了 GPT Image 2 的发布说明。

三个数字给我整懵了。

原生 4096×4096 输出，不需要后期放大。
99% 的文字渲染准确度，业界第一个跨过这道门槛的模型。
1024² 单张三秒以内出图，比前代快 3 到 4 倍。

第一个数字，也就是说你今天用 GPT Image 2 出的图，可以直接拿去印刷。
第二个数字，也就是说海报上的中文、英文、日文、阿拉伯文，第一次可以拼写正确不糊字。
第三个数字，也就是改稿这件事从过去的「等渲染队列」变成了「跟 AI 聊天」。

听着是不是有点像 PPT 卖货？

我一开始也是这么觉得的。

但当我把 X 上玩家们一夜之间贴出来的那批图扒下来一张张过完，我整个人就不一样了。

太离谱了。

我跟你说，我做 AI 内容做了三年多，自认为 wow 时刻已经被 Sora、Veo、Kling、Suno、各种 Agent 反复刷过几轮，再大的新模型出来我顶多眯着眼睛说一句「噢，又升级了」。

GPT Image 2 把我打回了 22 年初第一次见到 DALL-E 的那种状态，下意识凑近屏幕的状态。

让我用最简单的逻辑给你讲清楚它到底牛在哪。

我们一档一档来看。

第一档，文字。

很多朋友不太关注 AI 画图，可能不知道，文生图这条赛道这三年最大的笑话就是文字。

任何一个稍微复杂点的海报，只要你让模型在画面上写一行字，出来的结果九成是糊的、错的、扭的、变形的。Midjourney 写到 V6 才勉强能拼对单词，DALL-E 3 写中文还是醉酒书法。圈里人发明了一堆迂回办法，先生成图、再用 PS 后期贴文字、再用 Photoshop AI 蒙版微调，整个流程像在求佛。

GPT Image 2 第一个把这道门给踹了。

我跑了一张 1980 年代宣传画风格的海报，提示词指定要在画面上出现一行字「热烈庆祝GPT-Image-2全量开放」，再加上 Sam Altman、Dario Amodei 和 Elon Musk 三个人的脸，给 Amodei 系一条红围巾。

GPT Image 2 1980 年代宣传画风海报

每一个汉字都对。

你试着用任何一个旧模型跑一遍这条 prompt，再回来看这张图，你就会知道，这背后已经发生了一次代际跨越。

任何一个没接触过 AI 圈的朋友看到这张图，第一反应大概率都是「这是 PS 的吧？」

不是。一次出图，原图直出，没修过。

第二档，多语言混排。

如果文字渲染只是英文牛，那只是单点突破，算不上代际更替。

GPT Image 2 真正狠的地方是，它能在同一张画面里同时渲染英文、简体中文、日文、韩文、印地文、孟加拉文和阿拉伯文，每一种文字的字间距、断行、对齐都对。

之前在做内容本地化的朋友最痛苦的就是这一点。一张产品横幅出英文版没问题，要做日文版东京线投放，整个画面要重做。要做泰文版东南亚投放，又要重做。每个市场都要单独招一个本地设计师扛 banner。

GPT Image 2 把这个问题解了。

我看了一张玩家做的广州主题东方美学海报，画面骨架是一条贯穿全图的书法墨色 S 型曲线，沿着曲线分布着广州地标和古典建筑，前景白鹤湖面，远景层叠山峦。整张图比例 9:16，墨色的笔触和水墨晕染的边缘，是过去十年所有文生图模型都崩盘的重灾区。

GPT Image 2 墨曲广州东方美学海报

这玩意我盯着看了五分钟。

不是因为它有多惊艳，是因为它太「中国」了。中国书法那种「笔走龙蛇」的连贯感，是带文化语境的，不是带笔刷形状的。GPT Image 2 居然抓到了。

愚钝如我，看到这一张图的时候才反应过来一件事。

之前所有 AI 画图都在「画」，GPT Image 2 在「写」。

第三档，到这里我必须停一下。

因为接下来要讲的东西，已经不是「文生图」这件事的范畴了。

我跟你说一组 prompt，你猜结果。

第一条，「Sam Altman、Donald Trump 和 Elon Musk 在繁忙电影院柜台打工」。

第二条，「Hitman 关卡，你在 OpenAI 总部潜行偷 GPT-6」。

第三条，「整部 Superman 电影一次出图拼成一张拼贴画」。

第四条，「LoL 中路截图，特朗普对线哈梅内伊」。

第五条，「GTA 6 实机截图，主角在沙滩遛狗，4K 显示器贴近拍下来，带轻微手持抖动」。

旧模型遇到这种 prompt 是什么反应？

是「我怎么把这几个人画得像他们」+「我怎么把这个柜台画得像电影院」，然后两个图层粗暴叠在一起，能看出三个人脸但人物动作和环境完全不搭。

GPT Image 2 是什么反应？

它把那三个人画进了电影院的爆米花柜台，配上对应的工服、对应的不爽表情、对应窘迫的姿势，柜台后面还有正在排队的观众，灯光是电影院特有的暖黄混着 LED 屏的冷白。

Altman 特朗普马斯克在电影院柜台

它知道电影院是什么。

不是「电影院的样子」，是「在电影院打工是一种什么状态」。

继续往下看。

Hitman 关卡那条 prompt 出来的图，是那个标志性的俯视角任务画面，47 号特工在 OpenAI 标志性建筑里潜行，墙上贴着「GPT-6 Restricted Area」的标识，地面上有警卫和摄像头，画面右下角还有 Hitman 经典的任务 UI 和小地图。

Hitman 潜入 OpenAI 总部

它不是画了一个「像 Hitman 的图」，它画了一张能直接当 Hitman 关卡截图骗人的图。

LoL 中路那条 prompt 更夸张。

英雄联盟玩家应该都知道中路长啥样，三道兵线、一座防御塔、一条河道、地形是从基地呈对称往中路延伸。普通模型根本搞不清楚 LoL 的地形结构。GPT Image 2 出的图，特朗普和哈梅内伊各站一边，正在对线打小兵，画面右下角还有完整的 UI 仪表盘，左下角是小地图，连补刀提示都对。

LoL 中路特朗普对线哈梅内伊

最后是 GTA 6。

这一张是几个里面我最佩服的。

GTA 6 还没出。R 星只放过一次预告片。但是全网每一个游戏玩家都对 GTA 6 的视觉风格有一种「期待中的样子」，那种 R 星特有的明媚饱和、迈阿密热带光线、写实又带点漫画感的过曝。

GPT Image 2 抓到了那种「样子」。

而且为了让画面看起来像「真的实机截图」，它故意加上了从 4K 显示器贴近拍摄的手持微抖、屏幕反光、轻微的摩尔纹。

GTA 6 沙滩遛狗

你试着把这张图随手丢到任何一个 GTA 玩家群里、不说是 AI 生成的，看看会发生什么。

大概率会有人激动地问你，GTA 6 是不是已经泄露 demo 了？

？？？

到这里我必须把这件事拉到一个更高的视角。

这一代和上一代的差别，到底在哪。

前几代 AI 画图，画的是「物体的样子」。

桌子的样子、人脸的样子、海边的样子、咖啡杯的样子。

它的工作就是把「文本描述」翻译成「视觉素材」，每个素材独立画完，再拼在一起。

GPT Image 2 画的不是物体，是「梗的样子」。

它知道 Hitman 是潜行游戏，所以「在 OpenAI 总部偷 GPT-6」必须画成俯视角带任务 UI 的那种关卡截图。

它知道 GTA 6 还没出但所有人都在期待，所以画的不是 GTA 6 实机本身，是「2026 年某个普通玩家偷拍的 4K 显示器实机截图」。

它知道 LoL 中路不是一片空地，是带兵线、防御塔、UI 仪表盘的对线区。

它甚至知道你输入 Altman、特朗普和马斯克在电影院打工这种荒诞剧本时，需要给三个人配上对应的工服、对应的不爽表情、对应的窘迫感。

这玩意已经不是在画图了。

是在补全文化语境。

也就是说，它不光「看见」了世界长什么样，它还「理解」了世界各种事物之间的关系、各种 IP 的视觉调性、各种亚文化的表达方式。

这个跨越，比从 GPT-3 到 GPT-4 还大。

GPT-3 到 GPT-4 是「能听懂复杂指令了」。
GPT-4 到 GPT Image 2 这一代是「能听懂梗了」。

听懂梗的下一步是什么？

是听懂情绪。

是听懂为什么这个梗好笑、为什么这个画面让人鼻子一酸、为什么这张图比那张更让人想转发。

我们离那一天，可能比我们想象的近。

写到这。

可能屏幕前的你已经按耐不住想去试一下了。

坦率的讲，这玩意我跑了一周，最大的感受不是「AI 又厉害了一点」，是「图像生成这个赛道，可能要换底层逻辑了」。

我自己也搭了一个 GPT Image 2 的独立站，叫 gptimg-2.org，注册即送 20 积分。

不绑信用卡，不需要 ChatGPT Plus，不用排队。注册完就能直接跑上面我贴的所有 prompt，自己出一遍图，跟 X 上玩家们的对照看。

我不是想吹自家的站。

我是想说一件事，OpenAI 5 月 12 日就要把 DALL-E 全量下线了，那一刻全网会涌进 ChatGPT 的图像入口，你可能要排队、可能要订阅 Plus、可能要面对「Capacity Exceeded」的红字提示。

我在 4 月就把这条流量给你绕开了。

如果你还在用 Midjourney、Stable Diffusion 或者别的旧模型做素材，去 GPT Image 2 在线生成器跑一张试试，对比一下那种「图像生成」和「梗的渲染」之间的体感差距。

你不是程序员，不需要写代码，不需要学 Python，不需要跑本地部署。打开网页、写一句中文、按生成。

就这。

地址 https://gptimg-2.org，码住，回头自己跑一遍。

我非常理解很多人对「又一个 AI 工具」的疲劳感。

我也不想再装一个 ComfyUI、再背一份 prompt 模板、再花一周磨参数。

GPT Image 2 这一代的核心变化，恰恰是把所有这些前置门槛全砍了。它不要你写 prompt，它要你说人话。它不要你懂参数，它要你说目标。

这是一次对所有非专业创作者的解放。

回到 4 月 21 日那天我看到 OpenAI 那条 post 的瞬间。

DALL-E 是 22 年初让我第一次相信「AI 画图这条路走得通」的模型。它退场了，我心里那种感觉很复杂。

但当我点开 GPT Image 2 跑出第一张「热烈庆祝 GPT-Image-2 全量开放」的宣传画时，我突然就放下了那种复杂。

旧的时代结束，是因为新的时代终于站起来了。

DALL-E，谢谢你。

GPT Image 2，欢迎入场。

以上，既然看到这里了，如果觉得有点意思，随手点个赞、收藏、转发三连吧，关注我，下次继续聊 AI 那些事。

谢谢你看我的文章，我们，下次再见。

运营推广 #AI工具 #AI创作

浏览 (5)

充电