A pesar de su éxito, el modelo o3 de OpenAI no gana el gran premio del ARC Challenge

OpenAI presenta su modelo o3, que alcanza un notable 75.7% en la prueba ARC Challenge, pero expertos advierten que aún no es AGI.

Publicado: 29-12-2024 10:20

OpenAI ha anunciado un logro trascendental con su nuevo modelo de inteligencia artificial, denominado o3, que ha alcanzado un puntaje alto de 75.7% en la reconocida prueba de razonamiento, ARC Challenge. Esto ha llevado a algunos entusiastas de la inteligencia artificial a especular que o3 podría haber alcanzado la inteligencia general artificial (AGI). Sin embargo, a pesar de este logro, los organizadores del desafío han advertido que o3 no ha ganado el gran premio de la competencia y que su desempeño es solo un peldaño en el camino hacia la AGI.

El modelo o3, que representa una evolución en la línea de modelos de lenguaje grandes que alimentan a ChatGPT, logró un impacto significativo en la capacidad de adaptación de tareas. François Chollet, el ingeniero principal tras el ARC Challenge, describió el logro como un “aumento sorprendente y crucial en las capacidades de la IA”, evidenciando una habilidad de adaptación de tareas nunca antes vista en los modelos de la familia GPT.

La prueba del ARC Challenge, diseñada en 2019 para evaluar la capacidad de razonamiento de las IA, busca que los modelos encuentren patrones correctos en pares de cuadrículas coloreadas. Aunque el o3 logró un puntaje oficial usando un costo computacional total de aproximadamente $10,000, el desafío privado que determina a los ganadores, requiere una limitación de costos aún más estricta, equivalente a gastar solo 10 centavos por tarea. OpenAI no logró cumplir con esta restricción, pero sí obtuvo un puntaje no oficial de 87.5% al aplicar 172 veces más poder computacional.

Comparativamente, la puntuación típica de un humano en esta prueba es de 84%. Aunque una puntuación de 85% es suficiente para ganar el gran premio de $600,000, el o3 no pudo resolver más de 100 tareas de rompecabezas visual, incluso con un alto poder computacional. Expertos como Melanie Mitchell y Chollet han subrayado que, a pesar de los avances del o3, aún no se puede considerar AGI, ya que el modelo no puede resolver tareas que son simples para los humanos.

El avance del modelo se produce en un contexto en el que el desarrollo de inteligencia artificial ha mostrado un progreso más lento en 2024 en comparación con el año anterior. Con vistas al futuro, los organizadores del ARC Challenge han anunciado planes para lanzar una segunda serie de pruebas más desafiantes en 2025, mientras continuarán la búsqueda de un ganador que cumpla con los requisitos establecidos para el gran premio.