GPT Image 2 是 OpenAI 新一代旗舰图像生成模型,于 2026 年 4 月 21 日正式发布,产品名为 "ChatGPT Images 2.0"。模型 API ID 为 gpt-image-2,带固定快照 gpt-image-2-2026-04-21。它是 gpt-image-1(2025 年 3 月)和 DALL·E 3 的直接继任者,二者都将在 2026 年 5 月 12 日下线。
OpenAI 在发布时的定位:这是 "OpenAI 迄今最强的图像生成模型" — 而且是公司第一款集成了 O 系列推理的图像模型。用 OpenAI 自己的话说,这款模型 "是为生产工作流打造的 — 图像需要准确、可读、契合品牌、本地化、按目标场景排版,并且不需要大量后期清理就能直接用"。
本文拆解发布的内容、它对生产场景为什么重要,以及如何调 API。
四大官方能力支柱
OpenAI 把发布会围绕四个支柱组织。每一条都是对 gpt-image-1 和 DALL·E 3 长期痛点的直接回应。
1. 素材创作(Asset Creation)
更多宽高比和分辨率,最高 2K,瞄准 App、广告、产品流程、社交、演示和文档场景。上一代最高 1536×1024、比例选项有限;GPT Image 2 把覆盖面扩到了产品团队真正在用的格式。
2. 文本密集型视觉(Text-Heavy Visuals)
更强的结构化生成 — 图表、信息图、海报、漫画 — 以及显著提升的多语种文本渲染。拉丁字母不再是唯一的一等公民;日文、韩文、西里尔文、阿拉伯文,以及高密度的中日韩混排都能清晰渲染,包括漫画分镜、带堆叠标签的信息图这类硬骨头。
3. 控制与精度(Control & Precision)
更可靠的指令遵循、细节保留和构图。上一代经常出现"两个指定物体,一个角落一个"只画对一个的失败模式 — 这一支柱就是直接处理这个问题。
4. 推理集成(Reasoning Integration)
这是架构层面的故事。GPT Image 2 是 OpenAI 第一款采用 O 系列推理的图像模型 — 它先思考、再作画。配合推理模型,它能调研 Prompt、转换输入、生成多版本,并对结果做自检。在"根据这份 PDF 生成一张总结信息图"或"为四个市场各做一张本地化海报"这类工作流里,它不再只是作画,而是先对 Brief 做推理。
"先思考再作画"为什么重要
之前每一代扩散或自回归图像模型,本质上都是从噪声开始、尝试根据 Prompt 收敛到一张合理图像。GPT Image 2 在视觉生成开始之前插入了一步推理。听起来是渐进式的改进,但它改变了模型能做什么的形状:
- 多步骤 Brief 变得可靠。"用这些数字做一张品牌色的季度业绩海报,标题用韩文" — 不再是三轮反复重试。
- 自检关掉了明显的失败模式。 模型能在返回之前抓住自己渲染错的文字或错误的比例。
- 工具感知的生成。 结合更大栈里的推理模型,它能把结构化输入(CSV、JSON、源代码片段)转换成总结它们的视觉。
这就是 OpenAI 把 GPT Image 2 定位为生产工具而不是创意玩具的核心理由。Image Arena 数据印证了这个定位 — gpt-image-2 在发布时所有类目都拿了第一,文生图项目领先 +242 分(这是该榜单有史以来最大的领先优势)。
多语种文本渲染:实战
多语种文本是 gpt-image-1 时代呼声最高的修复点,也是 GPT Image 2 视觉跳跃最明显的领域。老模型会把非拉丁字符乱码或杜撰新字,新模型可以稳定输出:
- 日文竖排版式和带可读对话气泡的漫画分镜
- 没有典型方块字距错误的韩文谚文
- 整段长度的西里尔文招牌 — 店面、海报、交通指示牌
- 阿拉伯文右到左书写方向正确、连写形态正确
- 高密度信息图 — 堆叠标签、坐标轴文字、脚注都能保持对齐
对电商、App 截图、海报,以及所有文字进入画面的场景来说,这是"还得让设计师修一遍"和"直接上线"的分水岭。
横向对比
| GPT Image 2 | gpt-image-1(2025-03) | DALL·E 3 | |
|---|---|---|---|
| 状态 | 在线 | 已弃用 | 2026-05-12 下线 |
| 推理能力 | O 系列,集成 | 无 | 无 |
| 最大分辨率 | 最高 2K | 1536×1024 | 1024×1792 |
| 宽高比 | 大范围 | 3 种固定 | 3 种固定 |
| 多语种文本 | 强(中日韩、西里尔、阿拉伯) | 拉丁优先,中日韩弱 | 拉丁优先 |
| 图像输入 | 高保真 | 支持 | 受限 |
| API 端点 | images/generations、images/edits | 同 | 同 |
| Image Arena 排名 | 全类目第一,文生图 +242 分 | — | — |
DALL·E 下线提醒: OpenAI 将于 2026 年 5 月 12 日同时下线 DALL·E 2 和 DALL·E 3。GPT Image 2 将成为 ChatGPT 和 OpenAI API 中的默认图像模型。还在调 dall-e-3 的,迁移窗口已经很短了。
API 快速接入
GPT Image 2 沿用上一代的图像端点,迁移基本就是改一个模型 ID。完整接口表见 API 模型卡。
端点
POST /v1/images/generations— 文生图POST /v1/images/edits— 图像编辑(带图像输入)
模态 — 输入:文本 + 图像。输出:图像。
模型 ID — gpt-image-2。需要稳定行为时锁定快照 gpt-image-2-2026-04-21。
定价(每百万 Token)
| 输入 | 缓存输入 | 输出 | |
|---|---|---|---|
| 图像 Token | $8.00 | $2.00 | $30.00 |
| 文本 Token | $5.00 | $1.25 | $10.00 |
缓存输入定价是生产环境最关键的杠杆 — 如果你的 Prompt 共享稳定的前缀(品牌指南、风格约束、版式规则),缓存部分按每 Token 大约 1/4 的价格计费。
可用性时间表
- 2026-04-21 — 官方发布
- 2026-04-22 — ChatGPT 和 Codex 用户获得访问权限
- 2026 年 5 月初 — API 开始放量(实时状态见 开发者社区帖)
当前还缺什么
发布范围是有意收窄的。在你围绕它做架构之前值得了解的边界:
- 不支持流式输出。 必须等整张图返回,无法增量渲染。
- 不支持 Function Calling。
- 不支持 Structured Outputs。
- 暂不支持微调。
绝大多数产品场景里这些都不会卡住你。如果你计划做一条"用自家素材库微调品牌图像模型"的流水线,这个能力暂时不在菜单上 — 关注模型卡更新。
对开发者的四个启示
- 立刻迁出 DALL·E 3。 API 在 2026-05-12 关闭。改造主要就是模型 ID 替换,见上面的 API 快速接入。
- 审计 Prompt 库。 GPT Image 2 对指令的字面遵循度远高于 DALL·E 3,推理集成的生成机制更喜欢精确表达意图的 Prompt。可以先看 我们精选的 GPT Image 2 Prompt 合集,每条都配有真实输出图。
- 用上缓存输入定价。 跑高并发生成流水线时,把品牌/风格前缀做成可复用结构,能把这部分输入费用砍掉 ~75%。
- 文字入画终于可用于生产。 如果有功能因为中日韩或 RTL 渲染不行一直没上 — 可以启动了。
现在就试
GPT Image 2 已在我们生成器上线,使用 gpt-image-2 模型 — 不用排队、不用迁移。打开画布 直接输 Prompt,或 翻翻精选 Prompt 合集 拿可用范例去改。
新用户注册送 10 积分 — 够你在自己的 Prompt 上试出新版文本渲染和推理集成的效果,先试再说。
API 放量完成、OpenAI 上线后续能力时我们会更新本文。关注 更新日志 获取第一手消息。

