Guía de Prompts de GPT Image 2: Consejos, Plantillas y Ejemplos Virales (2026)

VideoToPrompton 2 days ago11 min read

OpenAI lanzó GPT Image 2 (ID de modelo gpt-image-2, comercializado como ChatGPT Images 2.0) el 21 de abril de 2026, y ocupó el puesto número 1 en Image Arena en doce horas con un margen de +242 puntos, la mayor ventaja jamás registrada en esa clasificación. Si escribes prompts para generadores de imágenes de IA, este es el modelo que necesitas aprender este trimestre.

Esta es una guía práctica de prompts para GPT Image 2 elaborada a partir de tres fuentes: el propio manual de OpenAI, los ejemplos de prompts de gpt-image-2 que se hicieron virales en X en la primera semana, y pruebas comparativas con modelos anteriores como GPT Image 1.5 y DALL·E 3. Al final, tendrás una estructura de prompt reutilizable para GPT Image 2, diez plantillas de copiar y pegar, y una comprensión clara de los patrones de renderizado de texto y edición que hacen que este modelo sea diferente.

¿Qué es GPT Image 2 (ChatGPT Images 2.0)?

GPT Image 2 es el primer modelo de imagen de OpenAI con razonamiento nativo integrado en la arquitectura: puede buscar en la web, analizar una solicitud y generar hasta ocho variaciones consistentes a partir de un solo prompt. Especificaciones clave que cambian la forma en que escribes los prompts:

  • Resolución: hasta 4K (4096×4096), siendo el rango de 2K (2560×1440) el punto óptimo para la fiabilidad
  • Renderizado de texto: ~99% de precisión a nivel de carácter en latín, CJK, hindi y bengalí — la característica destacada de gpt-image-2
  • Entrada multi-imagen: alimenta múltiples imágenes de referencia y gpt-image-2 razonará sobre cómo se combinan
  • Backbone: GPT-5.4, reemplazando tanto a DALL·E 3 como a GPT Image 1.5

Lo que eso significa en la práctica: GPT Image 2 premia los prompts específicos, estructurados y con múltiples cláusulas de una manera que la mayoría de los modelos antiguos no lo hacen. Los prompts vagos producen resultados vagos. Los prompts largos, densos y bien organizados producen resultados sorprendentemente precisos.

La estructura de prompt de GPT Image 2 que funciona

El manual oficial de OpenAI recomienda una estructura de prompt para gpt-image-2, y cada prompt viral de GPT Image 2 que he analizado sigue esta estructura:

Scene → Subject → Important details → Use case → Constraints

Escribe tu prompt de gpt-image-2 en ese orden. Usa saltos de línea o segmentos etiquetados en lugar de un párrafo largo — el paso de razonamiento de gpt-image-2 analiza los prompts estructurados de manera más fiable que las secuencias de palabras clave separadas por comas.

Prompt débil de gpt-image-2:

A girl in Tokyo at night.

Prompt fuerte de gpt-image-2 (Scene → Subject → Details → Use case → Constraints):

Scene: a narrow Shinjuku alley at 11pm, light rain on wet pavement reflecting neon signage in red and cyan.

Subject: a 22-year-old Japanese woman in a oversized beige trench coat, holding a clear umbrella, looking slightly off-camera.

Details: shot on 35mm film with mild grain, shallow depth of field at f/1.8, subject in focus and background bokeh, soft fill from a paper lantern off-screen left.

Use case: editorial street photography portrait, magazine cover potential.

Constraints: photorealistic only, no anime stylization, no logos or readable signage, no extra people in frame.

El segundo prompt no es más largo por el simple hecho de serlo. Cada segmento le da a gpt-image-2 un tipo diferente de restricción: la escena fija la ubicación y la iluminación, el sujeto fija la identidad, los detalles fijan la cámara y el aspecto, el caso de uso establece el nivel de pulido, las restricciones eliminan los modos de fallo.

Renderizado de texto: La característica estrella de GPT Image 2

GPT Image 2 es el primer modelo de imagen importante donde puedes colocar texto real, multilínea y multilingüe dentro de una imagen y confiar en el resultado. Para obtener la precisión del ~99% que promete OpenAI, sigue cuatro reglas.

1. Pon el texto literal entre comillas. Esto le indica a gpt-image-2 que la cadena debe renderizarse textualmente:

Headline reads: "Summer 2026 Capsule Collection"

2. Detalla la tipografía. No te limites a decir "una fuente limpia". Dile a gpt-image-2 el peso, el color, la alineación y la posición:

Bold sans-serif, white, centered in the bottom third, ~80px equivalent, generous letter spacing.

3. Añade un protector de verbatim para texto crítico. Cuando la precisión importa — nombres de marcas, fechas, precios — añade:

Render verbatim. No extra characters, no substitutions, no creative reinterpretation.

4. Aumenta la calidad. Usa quality: medium o high para prompts con texto pequeño, diseños con múltiples fuentes o paneles de información densos. La calidad low se ve bien en carteles grandes, pero falla en texto de tamaño de subtítulo.

Ejemplo viral de X de @BubbleBrain (22 de abril): un prompt de retrato con estética japonesa de 35 mm que especificaba explícitamente "Analog 35mm film photography, soft airy Japanese-style aesthetic, gentle diffused natural window light, slight overexposure, pastel tones, low contrast." No hubo renderizado de texto involucrado, pero se aplica la misma lógica de densidad y especificidad — gpt-image-2 acertó cada cláusula porque cada una era concreta.

El patrón de edición Change / Preserve

Editar con gpt-image-2 es donde la mayoría de la gente pierde horas. El patrón que funciona consistentemente — respaldado tanto por el manual de OpenAI como por cada repositorio de GitHub de awesome-gpt-image-2 — tiene tres bloques:

Change: [exactly what should change]
Preserve: [face, identity, pose, lighting, framing, background, geometry, text, layout]
Constraints: [no extra objects, no redesign, no logo drift, no watermark]

El truco es la línea Preserve. gpt-image-2 se desviará silenciosamente en cualquier cosa que no bloquees explícitamente. Si quieres que la cara permanezca igual, escribe "face" en Preserve. Si quieres que la iluminación se mantenga, escribe "lighting". Si quieres que el texto original permanezca intacto mientras cambias un fondo, escribe "all on-image text verbatim" en Preserve.

Itera un cambio a la vez. Los prompts de edición largos que intentan cambiar cinco cosas a la vez producen desviaciones en las cinco. Los prompts de edición cortos con una cláusula Change y una larga lista Preserve producen el resultado que deseabas.

Entrada multi-imagen: Razonamiento a través de referencias

Una de las cosas que gpt-image-2 hace y que los modelos anteriores no podían es razonar a través de múltiples imágenes de referencia. La regla: referencia cada imagen por índice y describe cómo interactúan.

Image 1: product shot of a glass perfume bottle on white seamless. Image 2: editorial style reference, golden hour light through a window. Image 3: pose reference, hand holding the bottle from above.

Apply Image 2's lighting and color grade to Image 1. Use Image 3's hand pose. Final aspect ratio 4:5.

@icreatelife (Kris Kashtanova) utilizó la misma lógica para uno de los tutoriales de GPT Image 2 más compartidos de la semana de lanzamiento — generando una panorámica equirectangular de 360° con el prompt "make equirectangular panorama of [PLACE]" y luego alimentándola de nuevo como referencia para la construcción de un visor 3D. La misma gramática multi-imagen maneja la composición, la transferencia de estilo y la transferencia de pose.

5 Prompts virales de GPT Image 2, decodificados

Aquí hay cinco prompts de GPT Image 2 que se hicieron virales en X en la primera semana de lanzamiento, cada uno anotado con lo que los hizo funcionar.

1. Realismo en Times Square — viral porque gpt-image-2 renderizó más de 150 peatones, taxis amarillos, pavimento mojado, reflejos especulares, y mantuvo toda la señalización correctamente escrita. El prompt era un denso recorrido de Scene → Subject → Details con un explícito "all signage text remains accurate, no garbled letters" en Constraints.

2. El flujo de trabajo Lovart de @hasantoxr — un prompt, 30 activos de campaña, capas de texto editables. El truco: le pasó a gpt-image-2 un resumen de marca dentro del prompt en lugar de una única descripción de imagen, y pidió un sistema de activos de una sola vez. El modo de razonamiento de gpt-image-2 manejó el paso de planificación de múltiples activos.

3. La maqueta de diseño de @junwatu — maqueta de UI de una sola toma de una página de inicio de comercio electrónico móvil. El prompt especificaba la barra de estado, las pestañas superiores, la tarjeta hero, la cuadrícula de productos y la navegación inferior como elementos explícitos. gpt-image-2 produjo una maqueta pixel-creíble que los diseñadores pensaron que era una captura de pantalla real.

4. "A massive pile of rice, and on one single grain there is tiny text that reads 'wOw'" — demostración de micro-detalle. Dos ideas clave: (1) gpt-image-2 puede renderizar texto legible dentro de una región que es quizás el 3% de la imagen, y (2) las escalas contrastantes (pila masiva vs. grano único) producen imágenes memorables que se comparten bien.

5. La panorámica equirectangular de @icreatelife — ""make equirectangular panorama of [PLACE]." Prompt corto, pero aprovecha un formato específico que gpt-image-2 entendió sin más explicaciones. Luego alimentó el resultado a un prompt de Codex para la construcción de un visor 3D controlado por ratón. Los flujos de trabajo de dos pasos como este son lo que están construyendo los usuarios avanzados de gpt-image-2.

10 Plantillas de prompts de GPT Image 2 para copiar y pegar

Úsalas como puntos de partida y rellena los espacios entre corchetes. Cada plantilla sigue la estructura Scene → Subject → Details → Constraints.

1. Retrato editorial

Scene: [location, time of day, light source]. Subject: [age/look], wearing [outfit], [pose]. Details: shot on 35mm, shallow depth of field, soft natural light. Constraints: photorealistic, no extra people, no readable text.

2. Póster con titular

A [style] poster, [aspect ratio]. Headline reads: "[exact text]" in [font weight + color], centered. Body: [layout description]. Render text verbatim, no substitutions.

3. Maqueta de UI

A pixel-perfect [device] screenshot of a [product type] app. Top: [status bar + nav]. Middle: [hero + content]. Bottom: [tab bar]. Style: [iOS / Material / minimal]. Constraints: realistic UI, no Lorem Ipsum, all text in English.

4. Infografía

An infographic titled "[exact title]" explaining [topic]. Layout: [columns / flow]. Style: [flat / 3D / hand-drawn]. Use icons for [list items]. All text rendered verbatim.

5. Foto de producto

Studio product shot of [product] on [background], [lighting setup], [angle]. Reflections, shadows, and material accuracy are critical. No text, no logos.

6. Hoja de personaje

Character sheet of [character description]. Three poses: front, three-quarter, side. Same outfit, same lighting across all three. Reference style: [studio]. Constraints: identical face across panels.

7. Creativo para anuncio social

A [aspect ratio] social ad for [brand/product]. Headline: "[text]". Subtext: "[text]". CTA button: "[text]". Background: [scene]. Style: [tone]. Render all text verbatim.

8. Captura de pantalla de juego

A first-person [game style] screenshot of [scene]. HUD elements: [list]. Lighting: [description]. Resolution: 4K. Constraints: no real-world logos, no watermark.

9. Panel de storyboard

Storyboard panel #[N] for [scene]. Shot type: [wide / medium / close]. Camera: [angle]. Subject: [action]. Style: [grayscale sketch / color]. Caption beneath: "[scene description]".

10. Editar / preservar

[Attached image]. Change: [exactly what changes]. Preserve: face, identity, pose, lighting, framing, background, all on-image text verbatim. Constraints: no extra objects, no redesign, no logo drift.

Errores comunes en los prompts de GPT Image 2

  • Omitir las restricciones. El modelo se desvía más de lo que la gente espera. Si no dices "no extra people", a menudo obtendrás personas adicionales.
  • Sobrecargar un prompt con cinco ediciones. Las iteraciones de un solo cambio superan a un mega-prompt heroico.
  • Olvidar los protectores de verbatim en el texto. "Summer" puede convertirse en "Sumer" si no lo bloqueas.
  • Estilo vago. "Cinematic" no significa nada para gpt-image-2 por sí solo. "Anamorphic 2.39:1, teal and orange grade, soft halation on highlights" sí lo hace.
  • Pedir una relación de aspecto en palabras pero no en el parámetro de tamaño. Pásalo como size (p. ej., 1024×1536) — las palabras por sí solas no siempre bloquean el lienzo.

GPT Image 2 es el primer modelo de imagen de OpenAI donde la ingeniería de prompts cambia significativamente el resultado. La estructura Scene → Subject → Details → Constraints, los patrones de texto verbatim y el formato de edición Change / Preserve son las tres cosas que hay que dominar primero. Todo lo demás es variación.

¿Quieres evitar escribir la estructura a mano cada vez? Prueba nuestro generador de prompts para GPT Image 2 — escribe una idea de una línea y obtén un prompt estructurado de gpt-image-2, listo para pegar en ChatGPT o en la API de OpenAI.