GPT Image 2 提示词完全指南:技巧、模板与 X 高赞案例(2026)

VideoToPrompton 2 days ago9 min read

OpenAI 在 2026 年 4 月 21 日发布了 GPT Image 2(API 模型 ID:gpt-image-2,营销名 ChatGPT Images 2.0),上线 12 小时就以 +242 分的领先冲上 Image Arena 榜首——这是该榜单有史以来最大的领先幅度。如果你给 AI 图像模型写提示词,这是本季度必须掌握的一个模型。

这篇 GPT Image 2 提示词指南整合了三个来源:OpenAI 官方 cookbook、首发一周内 X 上 viral 的 gpt-image-2 prompt 案例、以及和 GPT Image 1.5、DALL-E 3 的对比测试。读完你将掌握一套可复用的 GPT Image 2 提示词结构、10 条复制即用的模板,以及让这个模型与众不同的文字渲染和编辑技巧。

什么是 GPT Image 2 (ChatGPT Images 2.0)

GPT Image 2 是 OpenAI 第一个在架构层面内置推理(thinking)能力的图像模型——它可以联网搜索、思考请求、从一条提示词生成最多 8 张一致性变体。改变提示词写法的几个关键参数:

  • 分辨率:最高 4K(4096×4096),2K 段(2560×1440)是稳定性最佳的甜点
  • 文字渲染:拉丁、CJK、印地、孟加拉语字符级准确率约 99%——这是 gpt-image-2 最突出的差异点
  • 多图输入:可以同时塞多张参考图,gpt-image-2 会推理它们如何组合
  • 底座:GPT-5.4,同时替换 DALL-E 3 和 GPT Image 1.5

实际意义:GPT Image 2 对具体、结构化、多子句的提示词奖励特别高,这是大多数旧模型做不到的。模糊的提示词产出模糊的结果。长、密集、组织良好的提示词产出准确度惊人的图像。

真正有效的 GPT Image 2 提示词结构

OpenAI 官方 cookbook 推荐的 gpt-image-2 提示词结构只有一个,而我反向工程过的所有 viral GPT Image 2 prompt 都遵循它:

Scene(场景)→ Subject(主体)→ Important details(关键细节)→ Use case(用途)→ Constraints(约束)

按这个顺序写你的 gpt-image-2 提示词。用换行或带标签的段落分隔,不要写成一长串逗号关键词——gpt-image-2 的推理步骤更可靠地解析结构化提示词。

弱版 gpt-image-2 提示词:

一个东京夜晚的女孩。

强版 gpt-image-2 提示词(Scene → Subject → Details → Use case → Constraints):

Scene: 新宿一条狭窄小巷,晚上 11 点,潮湿路面反射红色和青色霓虹灯。

Subject: 22 岁日本女性,穿宽松米色风衣,手持透明伞,目光略偏离镜头。

Details: 35mm 胶片质感,轻微颗粒,f/1.8 浅景深,主体清晰,背景虚化,画面左侧画外纸灯笼提供柔和补光。

Use case: 编辑类街头摄影肖像,杂志封面气质。

Constraints: 写实风格,不要动漫化,不要 logo 或可读招牌,画面内不要其他人。

第二条提示词不是为了长而长。每一段对 gpt-image-2 提供不同维度的约束:场景固定地点和光线,主体固定身份,细节固定相机和质感,用途定调精修级别,约束消灭失败模式。

文字渲染:GPT Image 2 的杀手级特性

GPT Image 2 是第一个能在图像里放置真实、多行、多语种文字并产出可信结果的主流图像模型。要拿到 OpenAI 承诺的约 99% 准确率,遵守四条规则。

1. 把字面文字放进引号。 这告诉 gpt-image-2 这串字符要原样渲染:

Headline reads: "2026 夏季胶囊系列"

2. 把字体细节写出来。 不要只说"干净的字体"。告诉 gpt-image-2 字重、颜色、对齐和位置:

粗体无衬线,白色,居中放在底部三分之一处,约 80px 等效字号,宽字距。

3. 关键文字加 verbatim 守卫。 当准确性至关重要——品牌名、日期、价格——追加:

Render verbatim. No extra characters, no substitutions, no creative reinterpretation.

4. 提高 quality。 含小字、多字体布局或密集信息板的 gpt-image-2 prompt,把 quality 设为 mediumhighlow 在大尺寸海报上还行,但小到字幕级文字就崩。

X 上的 viral 例子,@BubbleBrain(4 月 22 日)的 35mm 日系肖像 prompt 显式写了:"Analog 35mm film photography, soft airy Japanese-style aesthetic, gentle diffused natural window light, slight overexposure, pastel tones, low contrast." 没涉及文字渲染,但同样的密度+具体性逻辑成立——gpt-image-2 把每个子句都做出来了,因为每一个都很具体。

Change / Preserve 编辑模式

用 gpt-image-2 做编辑是大多数人浪费时间的地方。OpenAI cookbook 和所有 awesome-gpt-image-2 GitHub 仓库共同认证的有效模式有三段:

Change: [具体要改什么]
Preserve: [face, identity, pose, lighting, framing, background, geometry, text, layout]
Constraints: [no extra objects, no redesign, no logo drift, no watermark]

关键是 Preserve 这一行。gpt-image-2 会在你没显式锁定的任何东西上悄悄漂移。想保留脸——在 Preserve 里写 "face"。想保留光照——写 "lighting"。想换背景但保留所有图上原有文字——在 Preserve 里写 "all on-image text verbatim"。

一次只改一处。一条试图同时改 5 件事的长 edit prompt,5 件都会漂移。一条 Change 只有一句、Preserve 列表很长的短 edit prompt,会得到你想要的结果。

多图输入:跨参考图的推理

GPT Image 2 能做但旧模型不能的一件事:跨多张参考图推理。规则:用编号引用每一张图,并说明它们如何交互

Image 1: 一只透明香水瓶在白色无缝背景上的产品照。 Image 2: 编辑级风格参考,黄昏阳光从窗户透进来。 Image 3: 姿势参考,从上往下握住瓶子的手。

把 Image 2 的光线和色调应用到 Image 1。使用 Image 3 的手部姿势。最终比例 4:5。

@icreatelife(Kris Kashtanova)在首发周分享了相同逻辑的一个 GPT Image 2 教程——用 "make equirectangular panorama of [PLACE]" 生成 360° 等距全景图,然后把它喂给 Codex 做一个鼠标控制的 3D 浏览器。同样的多图语法可以处理合成、风格迁移和姿势迁移。

5 条 X viral GPT Image 2 提示词解读

以下是发布首周内 X 上爆火的 5 条 GPT Image 2 提示词,逐一标注它们生效的原因。

1. 时代广场写实 — 爆火是因为 gpt-image-2 渲染了 150+ 行人、黄色出租车、湿滑路面、镜面高光,而且所有招牌文字拼写正确。提示词是密集的 Scene → Subject → Details,并在 Constraints 里显式写了 "all signage text remains accurate, no garbled letters"。

2. @hasantoxr 的 Lovart 工作流 — 一条提示词,30 个营销资产,可编辑文字图层。诀窍:他在提示词里塞了一份品牌简报而不是单图描述,并在一次请求中要求一整套资产。gpt-image-2 的推理模式处理了多资产规划的步骤。

3. @junwatu 的 UI mockup — 一次性产出移动电商 App 首页 UI 图。提示词把状态栏、顶部 tab、hero 卡片、商品网格、底部 nav 全部列为显式元素。gpt-image-2 产出了被设计师误认为真实截图的 mockup。

4. "一大堆米,其中一颗米上有一行小字写着 'wOw'" — 微细节炫技。两个洞察:(1) gpt-image-2 能在大约占整图 3% 的区域里渲染可读文字;(2) 反差量级(一大堆 vs 单一颗)产生易于传播的视觉冲击。

5. @icreatelife 的等距全景 — "make equirectangular panorama of [PLACE]." 提示词很短,但它利用了 gpt-image-2 不需进一步解释就能理解的特定格式。然后他把结果喂给 Codex 提示词做了一个鼠标 3D 浏览器。这种两步工作流是早期 gpt-image-2 重度用户正在搭建的东西。

10 条复制即用的 GPT Image 2 提示词模板

用作起点,填进方括号里的内容。每条模板都遵循 Scene → Subject → Details → Constraints 结构。

1. 编辑级肖像

Scene: [地点、时间、光源]。Subject: [年龄/外形],穿 [服饰],[姿势]。Details: 35mm 胶片,浅景深,柔和自然光。Constraints: 写实,不要其他人,无可读文字。

2. 带标题的海报

一张 [风格] 海报,[比例]。Headline reads: "[精确文本]",[字重 + 颜色],居中。Body: [布局描述]。Render text verbatim, no substitutions.

3. UI mockup

像素级精确的 [设备] 截图,[产品类型] App。顶部:[状态栏 + nav]。中部:[hero + 内容]。底部:[tab bar]。风格:[iOS / Material / 极简]。Constraints: 真实 UI,无 Lorem Ipsum,所有文字英文。

4. 信息图

一张信息图,标题:"[精确标题]",主题 [话题]。布局:[分栏 / 流式]。风格:[扁平 / 3D / 手绘]。给 [列表项] 配图标。所有文字原样渲染。

5. 产品图

[产品] 在 [背景] 上的影棚级产品照,[灯光设置],[角度]。反射、阴影、材质准确至关重要。无文字,无 logo。

6. 角色三视图

[角色描述] 的角色卡。三个姿势:正面、四分之三、侧面。同套服装、同种光线贯穿三格。参考风格:[工作室]。Constraints: 三格脸部完全一致。

7. 社交广告

[比例] 的社交广告,主题 [品牌/产品]。Headline: "[文本]"。Subtext: "[文本]"。CTA button: "[文本]"。背景:[场景]。风格:[调性]。所有文字原样渲染。

8. 游戏截图

[游戏风格] 第一人称视角,[场景]。HUD 元素:[列表]。光照:[描述]。分辨率:4K。Constraints: 无真实世界 logo,无水印。

9. 故事板分镜

故事板分镜 #[编号],[场景]。镜头类型:[远 / 中 / 近]。机位:[角度]。Subject: [动作]。风格:[黑白草图 / 彩色]。下方说明文字:"[场景描述]"。

10. 编辑保留

[附件图]。Change: [具体要改什么]。Preserve: face, identity, pose, lighting, framing, background, all on-image text verbatim。Constraints: no extra objects, no redesign, no logo drift.

常见的 GPT Image 2 提示词错误

  • 省略 Constraints。 模型漂移比想象的多。不写 "no extra people",经常会多出几个人。
  • 一条提示词改五件事。 单点迭代永远赢长篇巨改。
  • 关键文字没加 verbatim 守卫。 "Summer" 可能变成 "Sumer" 如果你不锁。
  • 风格描述太虚。 "Cinematic" 单独一个词对 gpt-image-2 没意义。"Anamorphic 2.39:1, teal and orange grade, soft halation on highlights" 才有。
  • 比例只在文字里说,没传 size 参数。size 参数传(如 1024×1536)——光靠文字未必锁得住画布。

GPT Image 2 是 OpenAI 第一款「提示词工程对结果有显著影响」的图像模型。Scene → Subject → Details → Constraints 结构、verbatim 文字模式、Change / Preserve 编辑格式是要先掌握的三件事。其余都是变体。

不想每次都手写完整结构?试试我们的 GPT Image 2 提示词生成器——输一句话,拿回一条结构化的 gpt-image-2 prompt,可以直接粘到 ChatGPT 或 OpenAI API。

GPT Image 2 提示词完全指南:技巧、模板与 X 高赞案例(2026)