GPT-4.5: una nueva etapa en el desarrollo de modelos lingüísticos

1m, 58s

18:35, 28.02.2025

Se ha lanzado un nuevo modelo lingüístico GPT-4.5, que será más natural que las versiones anteriores, pero cuyo precio será más elevado.

GPT-4.5 ya está disponible como «Research Preview» para desarrolladores y usuarios de la versión Pro. Está previsto que los usuarios de Team y Plus tengan acceso la semana que viene.

Una diferencia significativa entre GPT-4.5 y los modelos o3-mini y o1 es que la nueva versión responde mucho más rápido debido a un cambio en el enfoque de «aprendizaje no supervisado». Como el nuevo modelo no piensa antes de responder, el rendimiento mejora considerablemente.

GPT-4.5 también se conoce como Orion y es el mayor modelo entrenado hasta la fecha. OpenAI afirma que el nuevo modelo no será «borderline» Estas declaraciones de la empresa pueden estar relacionadas con el entrenamiento de otro modelo o3.

El precio del modelo es significativamente superior al de las versiones GPT-4o y o1 y asciende a 75 dólares (por un millón de tokens de entrada) y 150 dólares (por un millón de tokens de salida). Al igual que las versiones anteriores, esta variante tendrá una longitud de contexto de 128.000 tokens.

OpenAI declaró que los 2 enfoques principales (razonamiento y aprendizaje) se utilizarán como variantes mutuamente complementarias. La versión 4.5 ya es mucho más inteligente gracias al preentrenamiento. También hay una gran posibilidad de que la nueva versión de GPT-5 será capaz de combinar estas dos características.

Resultados de las pruebas comparativas

En cuanto a las pruebas de rendimiento, el modelo 4.5 muestra buenos resultados y alcanza un 62,5% en SimpleQA. En la misma prueba, Grok 3 obtiene un 43,6% y GPT-4o un 43,6%. La tasa de alucinaciones también se ha reducido significativamente hasta alcanzar un récord del 37,1%. Además, la nueva versión 4.5 domina las pruebas de juicio humano en asuntos cotidianos, inteligencia creativa y asuntos vocacionales.

En las pruebas STEM, los resultados varían de un modelo a otro. Por ejemplo, en la prueba AIME '24, el modelo 4.5 obtiene un 36,7%, el o3-mini un 87,3% y el GPT-4o un 9,3%. En la prueba SWE-Bench Verified, el resultado es del 38,8%, mientras que el o3-mini obtiene un 61,0% y el GPT-4o un 30,7%.

Si comparamos los resultados de todas las pruebas, las cifras son bastante estables y no hay un salto significativo en el rendimiento, como mostró SimpleQA.