GPT Image 2 是什么?OpenAI 下一代图像模型深度解析

2026/04/17

GPT Image 2 是 OpenAI 下一代图像模型的非官方名称,目前尚未正式发布。它是 OpenAI 一个更大项目 — 代号 "Spud" 的多模态推理模型 — 的视觉输出头。早期灰度测试显示,它是自 DALL·E 3 以来 AI 图像领域最大的一次跃升。

本文汇总截至 2026 年 4 月的公开信息,以及这对所有基于 OpenAI 图像 API 开发的团队意味着什么。

灰度事件:三个"胶带"模型

2026 年 4 月第一周,LM Arena 盲测榜上突然出现三个匿名图像模型:

  • maskingtape-alpha
  • gaffertape-alpha
  • packingtape-alpha

独立开发者 @levelsio 第一时间指出,这些模型的输出明显优于当前榜首。三个模型在 24 小时内被下架。紧接着,ChatGPT Plus 与 Pro 用户开始报告:日常生图请求偶尔会被路由到一个明显更锐利、文字更准确的引擎 — 这是典型的 A/B 测试。

结合 OpenAI 以往的命名习惯(此前的预发布代号是 "Chestnut" 和 "Hazelnut"),社区共识是:这三个胶带模型就是 GPT Image 2 的灰度版本。

GPT Image 2 的五大核心升级

1. 文本渲染越过 99% 准确率

这是最核心的升级。GPT Image 1.5 英文准确率已经接近 95%,但在长招牌和非拉丁文字上频繁翻车。GPT Image 2 能做到:

  • 带商品名、税额计算和小数对齐的长小票
  • 带真实按钮文案和标点的 App UI 截图
  • 跨行连贯的手写便签
  • 中文、日文、韩文、阿拉伯文都是一等公民

对电商主图、海报、UI Mockup 以及所有需要文字上画的场景来说,这是"还得让设计师修一遍"和"直接上线"的分水岭。

2. 世界常识推理

老一代图像模型只会画它见过的形状。GPT Image 2 是先推理、再作画。社区最火的测试:要求画一张桌子,上面贴一张写着 "9 点给 Mina 打电话" 的便签,旁边放只手表。GPT Image 2 画出的手表时针精确指向 9 点 — 它读懂便签、理解时间概念、把时间映射到手表盘的几何位置。这已经不是"图像生成",是多模态推理。

3. 原生 4K,真正的多宽高比

GPT Image 1.5 最高只能输出 1536×1024,仅支持三种比例。GPT Image 2 早期样本已经确认原生 4096×4096,完整支持 16:9 电影宽屏,上线时很可能同时支持 9:16 竖屏。视频封面、演示幻灯片、短视频定帧 — 放大流水线可以直接砍掉。

4. 单图 3 秒内

GPT Image 2 采用自回归架构(不是扩散),单次前向就能出图。早期延迟测试显示单张 1024² 低于 3 秒 — 相比上一代 8-12 秒提速 3-4 倍。对于迭代式 Prompt 调优循环,这改变的是交互范式本身。

5. 角色锁定与区域控制

第三方 Demo 里出现了两个新控件:

  • 角色锁定 — 整批生成时主体不变。漫画分镜、角色设定表、产品图册天生一致。
  • 区域提示 — 在一段 Prompt 里直接描述分区内容,不用 ControlNet。"左上角霓虹招牌,右下角生锈机甲" — 一次调用,没有节点图。

底层揭秘:Spud

GPT Image 2 不是独立图像项目,它是 Spud 模型的视觉输出头。Spud 是 OpenAI 下一代前沿模型 — 原生多模态 MoE 架构,端到端训练在文本、图像、音频、视频 token 上。多方独立来源确认,预训练已于 2026 年 3 月底完成。

关键架构差异:在画任何像素之前,Spud 会对 Prompt 进行一步"推理" — 类似 o1 的思维链机制。Greg Brockman 把这代模型定位为"推动经济运行的模型",而不是刷榜模型 — 重点是 Agentic 的生产工作流,不是炫图。

发布时间

OpenAI 没有确认公开发布日期,但三个线索勾出窗口:

  • 2026-03-24 — OpenAI 关闭了 Sora 视频项目,理由是"把算力集中在下一代产品"。Sora 峰值每日烧 $15M 推理成本,生涯总收入只有 $2.1M。这些算力基本确定转投 Spud / Image 2。
  • 2026-05-12 — DALL·E 2 和 DALL·E 3 的 API 正式下线。产品线此时会出现一个继任者形状的缺口。
  • 2026-04 — LM Arena 灰度 + ChatGPT A/B 测试同时进行。OpenAI 历史规律:这一阶段后 4-8 周正式发布。

多数分析师把官方发布锁定在 2026 年 4 月中 ~ 6 月初

GPT Image 2 横向对比

GPT Image 2(预期)Nano Banana Pro(Gemini 3 Pro)MAI-Image-2
底层架构自回归多模态优化扩散扩散(微软栈)
文本渲染>99%,多语种接近完美,主要拉丁文商业图形强
世界常识最强(先推理后作画)
速度单图 < 3 秒比 GPT Image 1.5 快 3-5×同档最快
最大分辨率4096²极高1024² 优化
最佳场景生产级素材、多语种、推理密集写实人像、快速探索高并发企业级

Nano Banana Pro 在纯写实人像和速度上仍有优势。MAI-Image-2 在单图成本上胜出。GPT Image 2 的强项在于指令遵循、长文本和物理常识推理 — 这恰好是阻止 AI 图像进入生产环境的三个老大难。

对开发者的三个启示

  1. DALL·E 已死。 还在调 dall-e-3 的,立即迁移 — API 在 2026-05-12 关闭。
  2. OpenAI 图像 API 会打破旧 Prompt。 GPT Image 2 对 Prompt 的字面遵循度远高于 DALL·E 3。现在就审计你的 Prompt 库。
  3. 多模型路由会赢。 不同模型有不同甜点区,定价也天差地别。一个轻量抽象层(比如 gptimage2.design 本身的路由)值得现在就建。
  4. 文字入画终于可用。 如果你有功能因为 CJK 渲染不行一直没上 — 可以启动了。

OpenAI 正式发布和定价公布后,我们会更新本文。关注 更新日志 获取第一手消息。

gptimage2.design 研究组

gptimage2.design 研究组

GPT Image 2 是什么?OpenAI 下一代图像模型深度解析 | 博客