OpenAI lanza PaperBench para evaluar la capacidad de IA en replicar trabajos científicos y compara resultados con estudiantes de posgrado

OpenAI introduce PaperBench, una innovadora herramienta para evaluar cómo los sistemas de IA replican investigaciones científicas, comparando su desempeño con el de estudiantes de posgrado.

Publicado: 04-04-2025 15:20

OpenAI ha lanzado PaperBench, una nueva herramienta de comparación diseñada para medir la capacidad de los sistemas de inteligencia artificial (IA) para reproducir trabajos científicos de manera autónoma. Este benchmark se basa en la evaluación de 20 artículos de investigación en el ámbito del aprendizaje automático y considera más de 8,300 criterios de evaluación. En sus resultados, el modelo Claude 3.5 Sonnet de Anthropic logró una tasa de replicación del 21%, en contraste con el GPT-4o de OpenAI, que alcanzó solo un 4.1%. En comparación, los doctorandos de universidades reconocidas lograron replicar el 41.4% de los trabajos tras 48 horas de trabajo, destacando las diferencias en los métodos de trabajo: las IA inician rápidamente, pero tienden a estancarse, mientras que los humanos tardan más en adaptarse pero mejoran de manera continua. OpenAI ha hecho que el benchmark esté disponible como código abierto en GitHub.

En otra nota relacionada, se ha reportado que los usuarios han generado más de 700 millones de imágenes utilizando la nueva función de ChatGPT, solo una semana después de su lanzamiento. Durante este período, más de 130 millones de personas utilizaron la función, con un crecimiento notable en India y un pico de un millón de nuevos usuarios por hora durante un evento viral relacionado con imágenes de Studio Ghibli. OpenAI ha comenzado a ofrecer esta función en un acceso limitado y trabaja en una API para la generación de imágenes.

Por otro lado, AMD ha advertido sobre graves vulnerabilidades en sus procesadores Ryzen-AI, que incluyen problemas en el software y controladores, afectando principalmente a la Unidad de Procesamiento Neural (NPU). Se han identificado cuatro fallas, siendo las más críticas los desbordamientos de enteros que pueden permitir la ejecución de código malicioso. Los desarrolladores que utilizan el kit de desarrollo de software para Ryzen AI deben tener especial cuidado debido a configuraciones predeterminadas inseguras que podrían facilitar ataques malintencionados. AMD ha lanzado actualizaciones para corregir estos inconvenientes en su sitio web.

Además, Microsoft ha anunciado una pausa en varios de sus proyectos de infraestructura para inteligencia artificial, tras haber planificado una inversión de 80 mil millones de dólares en centros de datos de IA. Según informes, la compañía está ralentizando sus iniciativas en países como Indonesia, Australia y el Reino Unido, y ha detenido o demorado desarrollos en diversas localidades de Estados Unidos. Este giro estratégico parece ser una respuesta a la creciente eficiencia de modelos de IA, como el chino DeepSeek, que necesita menor capacidad computacional.

En el competitivo ámbito educativo, OpenAI está ofreciendo ChatGPT Plus de manera gratuita a estudiantes en Estados Unidos y Canadá hasta mayo, justo un día después de que Anthropic anunciara su programa "Claude for Education" para instituciones universitarias estadounidenses. Esta sincronización subraya la intensa competencia entre ambas empresas, especialmente en el sector académico, donde OpenAI ha estado activo desde hace un año y ha lanzado ChatGPT Edu en el mercado estadounidense el pasado mayo, así como el nuevo consorcio NextGenAI, que destina 50 millones de dólares para impulsar la investigación en IA en 15 universidades.