El 5 de marzo de 2026, OpenAI anunció el lanzamiento de GPT‑5.4 y GPT‑5.4 Pro en ChatGPT, la API y Codex, presentándolos como sus modelos de vanguardia más capaces y eficientes para el trabajo profesional, con mejoras en razonamiento, programación y flujos de trabajo con agentes.

Lanzamiento y posicionamiento de GPT‑5.4 y GPT‑5.4 Pro

OpenAI informó el lanzamiento de GPT‑5.4 como su modelo de propósito general más avanzado, junto con GPT‑5.4 Pro, orientado a quienes requieren el máximo rendimiento en tareas complejas. Ambos están disponibles en ChatGPT y en la API, y GPT‑5.4 también se integra en Codex. El anuncio lo define como un modelo diseñado para el trabajo profesional, con énfasis en precisión, eficacia y eficiencia, y con el objetivo de reducir “idas y vueltas” en la interacción con el usuario.

Capacidades clave para trabajo profesional y agentes

GPT‑5.4 reúne avances recientes en razonamiento, programación y flujos de trabajo con agentes. Incorpora capacidades de codificación líderes del sector provenientes de GPT‑5.3‑Codex y mejora la interacción con herramientas, entornos de software y tareas profesionales que involucran hojas de cálculo, presentaciones y documentos. En la API y Codex, se presenta como el primer modelo de propósito general con capacidades nativas para el uso de computadoras, permitiendo a los agentes operar aplicaciones y ejecutar flujos de trabajo complejos.

Mejoras en razonamiento, eficiencia y contexto

En ChatGPT, GPT‑5.4 Thinking puede compartir un plan de razonamiento desde el inicio, permitiendo ajustes durante la generación de la respuesta. También mejora la investigación profunda en la web y el mantenimiento del contexto en análisis prolongados. El modelo admite hasta 1 millón de tokens de contexto y utiliza significativamente menos tokens para resolver problemas en comparación con GPT‑5.2, lo que se traduce en mayor velocidad y menor consumo.

Resultados en evaluaciones comparativas (benchmarks)

GPT‑5.4 muestra mejoras frente a GPT‑5.3‑Codex y GPT‑5.2 en múltiples evaluaciones: GDPval (83.0%), SWE‑Bench Pro (57.7%), OSWorld‑Verified (75.0%), Toolathlon (54.6%) y BrowseComp (82.7%). En varios casos, los resultados superan ampliamente a versiones anteriores, según los datos reportados.

Evaluación / Benchmark	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2	Notas
GDPval (victorias o empates)	83.0 %	70.9 %	70.9 %	Comparación frente a profesionales de la industria
SWE‑Bench Pro (Publico)	57.7 %	56.8 %	55.6 %	Evaluación de tareas de ingeniería de software
OSWorld‑Verified	75.0 %	74.0 %*	47.3 %	*Previamente reportado como 64.7 %
Toolathlon	54.6 %	51.9 %	46.3 %	Uso de herramientas y agentes
BrowseComp	82.7 %	77.3 %	65.8 %	Comprensión y navegación web

Desempeño en trabajo profesional especializado

En GDPval, que evalúa tareas de trabajo especializado en 44 ocupaciones, GPT‑5.4 iguala o supera a profesionales de la industria en el 83.0% de las comparaciones, frente al 71.0% de GPT‑5.2. Las tareas evaluadas incluyen productos de trabajo reales como presentaciones, hojas de cálculo, diagramas y videos cortos.

Mejoras específicas en hojas de cálculo y presentaciones

En el comunicado se destacan mejoras en la creación y edición de hojas de cálculo, presentaciones y documentos. En una evaluación interna de modelado en hojas de cálculo, GPT‑5.4 obtuvo un puntaje promedio de 87.5%, frente al 68.4% de GPT‑5.2. En evaluaciones de presentaciones, los evaluadores humanos prefirieron las de GPT‑5.4 el 68.0% de las veces por su estética, variedad visual y uso de generación de imágenes.

GPT‑5.4 se posiciona como un modelo orientado a agentes más confiables, flujos de trabajo para desarrolladores más rápidos y resultados de mayor calidad en ChatGPT, la API y Codex, integrando capacidades avanzadas en un único sistema.

Referencias

OpenAI. (2026, 5 de marzo). Presentamos GPT‑5.4: Diseñado para el trabajo profesional. Comunicado de prensa. https://openai.com/es-419/index/introducing-gpt-5-4/

Glosario

Agentes: Sistemas que planifican, ejecutan y verifican tareas usando herramientas y aplicaciones.
Codex: Entorno donde el modelo se integra para tareas de programación y flujos de trabajo.
Contexto (tokens): Cantidad de información que el modelo puede procesar y mantener en una sola interacción.
GDPval: Evaluación que mide desempeño en tareas profesionales especializadas.
Tool search: Capacidad para encontrar y utilizar herramientas dentro de ecosistemas complejos.

Image courtesy of Con imagenes de YAYIMAGES | boonruen

Alejandro Arcos

Todos sus artículos

Comentarios

0 0 votes

Article Rating

0 Comments

Newest

Oldest Most Voted

Inline Feedbacks

View all comments

OpenAI lanza GPT‑5.4, su modelo más avanzado para trabajo profesional

Lanzamiento y posicionamiento de GPT‑5.4 y GPT‑5.4 Pro

Capacidades clave para trabajo profesional y agentes

Mejoras en razonamiento, eficiencia y contexto

Resultados en evaluaciones comparativas (benchmarks)

Desempeño en trabajo profesional especializado

Mejoras específicas en hojas de cálculo y presentaciones

Referencias

Glosario

Alejandro Arcos

Comentarios

F5 celebra 30 años de innovación y liderazgo en seguridad y entrega de aplicaciones

INCMNSZ moderniza laboratorios y eleva capacidad diagnóstica a 15 millones de pruebas anuales

Pleno de la CRT aprobó por unanimidad identificar todas las líneas móviles a partir de enero de 2026; entrarán en vigor con su publicación en DOF

México se consolida como potencia en reproducción asistida tras 20 años de avances del Instituto Ingenes

CONTHACKTO México, Sociedad Civil

La red de expertos en innovación