GPT Image 2 是 OpenAI 下一代图像模型的非官方名称,目前尚未正式发布。它是 OpenAI 一个更大项目 — 代号 "Spud" 的多模态推理模型 — 的视觉输出头。早期灰度测试显示,它是自 DALL·E 3 以来 AI 图像领域最大的一次跃升。
本文汇总截至 2026 年 4 月的公开信息,以及这对所有基于 OpenAI 图像 API 开发的团队意味着什么。
灰度事件:三个"胶带"模型
2026 年 4 月第一周,LM Arena 盲测榜上突然出现三个匿名图像模型:
maskingtape-alphagaffertape-alphapackingtape-alpha
独立开发者 @levelsio 第一时间指出,这些模型的输出明显优于当前榜首。三个模型在 24 小时内被下架。紧接着,ChatGPT Plus 与 Pro 用户开始报告:日常生图请求偶尔会被路由到一个明显更锐利、文字更准确的引擎 — 这是典型的 A/B 测试。
结合 OpenAI 以往的命名习惯(此前的预发布代号是 "Chestnut" 和 "Hazelnut"),社区共识是:这三个胶带模型就是 GPT Image 2 的灰度版本。
GPT Image 2 的五大核心升级
1. 文本渲染越过 99% 准确率
这是最核心的升级。GPT Image 1.5 英文准确率已经接近 95%,但在长招牌和非拉丁文字上频繁翻车。GPT Image 2 能做到:
- 带商品名、税额计算和小数对齐的长小票
- 带真实按钮文案和标点的 App UI 截图
- 跨行连贯的手写便签
- 中文、日文、韩文、阿拉伯文都是一等公民
对电商主图、海报、UI Mockup 以及所有需要文字上画的场景来说,这是"还得让设计师修一遍"和"直接上线"的分水岭。
2. 世界常识推理
老一代图像模型只会画它见过的形状。GPT Image 2 是先推理、再作画。社区最火的测试:要求画一张桌子,上面贴一张写着 "9 点给 Mina 打电话" 的便签,旁边放只手表。GPT Image 2 画出的手表时针精确指向 9 点 — 它读懂便签、理解时间概念、把时间映射到手表盘的几何位置。这已经不是"图像生成",是多模态推理。
3. 原生 4K,真正的多宽高比
GPT Image 1.5 最高只能输出 1536×1024,仅支持三种比例。GPT Image 2 早期样本已经确认原生 4096×4096,完整支持 16:9 电影宽屏,上线时很可能同时支持 9:16 竖屏。视频封面、演示幻灯片、短视频定帧 — 放大流水线可以直接砍掉。
4. 单图 3 秒内
GPT Image 2 采用自回归架构(不是扩散),单次前向就能出图。早期延迟测试显示单张 1024² 低于 3 秒 — 相比上一代 8-12 秒提速 3-4 倍。对于迭代式 Prompt 调优循环,这改变的是交互范式本身。
5. 角色锁定与区域控制
第三方 Demo 里出现了两个新控件:
- 角色锁定 — 整批生成时主体不变。漫画分镜、角色设定表、产品图册天生一致。
- 区域提示 — 在一段 Prompt 里直接描述分区内容,不用 ControlNet。"左上角霓虹招牌,右下角生锈机甲" — 一次调用,没有节点图。
底层揭秘:Spud
GPT Image 2 不是独立图像项目,它是 Spud 模型的视觉输出头。Spud 是 OpenAI 下一代前沿模型 — 原生多模态 MoE 架构,端到端训练在文本、图像、音频、视频 token 上。多方独立来源确认,预训练已于 2026 年 3 月底完成。
关键架构差异:在画任何像素之前,Spud 会对 Prompt 进行一步"推理" — 类似 o1 的思维链机制。Greg Brockman 把这代模型定位为"推动经济运行的模型",而不是刷榜模型 — 重点是 Agentic 的生产工作流,不是炫图。
发布时间
OpenAI 没有确认公开发布日期,但三个线索勾出窗口:
- 2026-03-24 — OpenAI 关闭了 Sora 视频项目,理由是"把算力集中在下一代产品"。Sora 峰值每日烧 $15M 推理成本,生涯总收入只有 $2.1M。这些算力基本确定转投 Spud / Image 2。
- 2026-05-12 — DALL·E 2 和 DALL·E 3 的 API 正式下线。产品线此时会出现一个继任者形状的缺口。
- 2026-04 — LM Arena 灰度 + ChatGPT A/B 测试同时进行。OpenAI 历史规律:这一阶段后 4-8 周正式发布。
多数分析师把官方发布锁定在 2026 年 4 月中 ~ 6 月初。
GPT Image 2 横向对比
| GPT Image 2(预期) | Nano Banana Pro(Gemini 3 Pro) | MAI-Image-2 | |
|---|---|---|---|
| 底层架构 | 自回归多模态 | 优化扩散 | 扩散(微软栈) |
| 文本渲染 | >99%,多语种 | 接近完美,主要拉丁文 | 商业图形强 |
| 世界常识 | 最强(先推理后作画) | 中 | 中 |
| 速度 | 单图 < 3 秒 | 比 GPT Image 1.5 快 3-5× | 同档最快 |
| 最大分辨率 | 4096² | 极高 | 1024² 优化 |
| 最佳场景 | 生产级素材、多语种、推理密集 | 写实人像、快速探索 | 高并发企业级 |
Nano Banana Pro 在纯写实人像和速度上仍有优势。MAI-Image-2 在单图成本上胜出。GPT Image 2 的强项在于指令遵循、长文本和物理常识推理 — 这恰好是阻止 AI 图像进入生产环境的三个老大难。
对开发者的三个启示
- DALL·E 已死。 还在调
dall-e-3的,立即迁移 — API 在 2026-05-12 关闭。 - OpenAI 图像 API 会打破旧 Prompt。 GPT Image 2 对 Prompt 的字面遵循度远高于 DALL·E 3。现在就审计你的 Prompt 库。
- 多模型路由会赢。 不同模型有不同甜点区,定价也天差地别。一个轻量抽象层(比如 gptimage2.design 本身的路由)值得现在就建。
- 文字入画终于可用。 如果你有功能因为 CJK 渲染不行一直没上 — 可以启动了。
OpenAI 正式发布和定价公布后,我们会更新本文。关注 更新日志 获取第一手消息。

