El 5 de marzo de 2026, OpenAI anunció el lanzamiento de GPT‑5.4 y GPT‑5.4 Pro en ChatGPT, la API y Codex, presentándolos como sus modelos de vanguardia más capaces y eficientes para el trabajo profesional, con mejoras en razonamiento, programación y flujos de trabajo con agentes.
Lanzamiento y posicionamiento de GPT‑5.4 y GPT‑5.4 Pro
OpenAI informó el lanzamiento de GPT‑5.4 como su modelo de propósito general más avanzado, junto con GPT‑5.4 Pro, orientado a quienes requieren el máximo rendimiento en tareas complejas. Ambos están disponibles en ChatGPT y en la API, y GPT‑5.4 también se integra en Codex. El anuncio lo define como un modelo diseñado para el trabajo profesional, con énfasis en precisión, eficacia y eficiencia, y con el objetivo de reducir “idas y vueltas” en la interacción con el usuario.
Capacidades clave para trabajo profesional y agentes
GPT‑5.4 reúne avances recientes en razonamiento, programación y flujos de trabajo con agentes. Incorpora capacidades de codificación líderes del sector provenientes de GPT‑5.3‑Codex y mejora la interacción con herramientas, entornos de software y tareas profesionales que involucran hojas de cálculo, presentaciones y documentos. En la API y Codex, se presenta como el primer modelo de propósito general con capacidades nativas para el uso de computadoras, permitiendo a los agentes operar aplicaciones y ejecutar flujos de trabajo complejos.
Mejoras en razonamiento, eficiencia y contexto
En ChatGPT, GPT‑5.4 Thinking puede compartir un plan de razonamiento desde el inicio, permitiendo ajustes durante la generación de la respuesta. También mejora la investigación profunda en la web y el mantenimiento del contexto en análisis prolongados. El modelo admite hasta 1 millón de tokens de contexto y utiliza significativamente menos tokens para resolver problemas en comparación con GPT‑5.2, lo que se traduce en mayor velocidad y menor consumo.
Resultados en evaluaciones comparativas (benchmarks)
GPT‑5.4 muestra mejoras frente a GPT‑5.3‑Codex y GPT‑5.2 en múltiples evaluaciones: GDPval (83.0%), SWE‑Bench Pro (57.7%), OSWorld‑Verified (75.0%), Toolathlon (54.6%) y BrowseComp (82.7%). En varios casos, los resultados superan ampliamente a versiones anteriores, según los datos reportados.
| Evaluación / Benchmark | GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | Notas |
|---|---|---|---|---|
| GDPval (victorias o empates) | 83.0 % | 70.9 % | 70.9 % | Comparación frente a profesionales de la industria |
| SWE‑Bench Pro (Publico) | 57.7 % | 56.8 % | 55.6 % | Evaluación de tareas de ingeniería de software |
| OSWorld‑Verified | 75.0 % | 74.0 %* | 47.3 % | *Previamente reportado como 64.7 % |
| Toolathlon | 54.6 % | 51.9 % | 46.3 % | Uso de herramientas y agentes |
| BrowseComp | 82.7 % | 77.3 % | 65.8 % | Comprensión y navegación web |
Desempeño en trabajo profesional especializado
En GDPval, que evalúa tareas de trabajo especializado en 44 ocupaciones, GPT‑5.4 iguala o supera a profesionales de la industria en el 83.0% de las comparaciones, frente al 71.0% de GPT‑5.2. Las tareas evaluadas incluyen productos de trabajo reales como presentaciones, hojas de cálculo, diagramas y videos cortos.
Mejoras específicas en hojas de cálculo y presentaciones
En el comunicado se destacan mejoras en la creación y edición de hojas de cálculo, presentaciones y documentos. En una evaluación interna de modelado en hojas de cálculo, GPT‑5.4 obtuvo un puntaje promedio de 87.5%, frente al 68.4% de GPT‑5.2. En evaluaciones de presentaciones, los evaluadores humanos prefirieron las de GPT‑5.4 el 68.0% de las veces por su estética, variedad visual y uso de generación de imágenes.
GPT‑5.4 se posiciona como un modelo orientado a agentes más confiables, flujos de trabajo para desarrolladores más rápidos y resultados de mayor calidad en ChatGPT, la API y Codex, integrando capacidades avanzadas en un único sistema.
Referencias
- OpenAI. (2026, 5 de marzo). Presentamos GPT‑5.4: Diseñado para el trabajo profesional. Comunicado de prensa. https://openai.com/es-419/index/introducing-gpt-5-4/
Glosario
- Agentes: Sistemas que planifican, ejecutan y verifican tareas usando herramientas y aplicaciones.
- Codex: Entorno donde el modelo se integra para tareas de programación y flujos de trabajo.
- Contexto (tokens): Cantidad de información que el modelo puede procesar y mantener en una sola interacción.
- GDPval: Evaluación que mide desempeño en tareas profesionales especializadas.
- Tool search: Capacidad para encontrar y utilizar herramientas dentro de ecosistemas complejos.

