Estudio revela deterioro cognitivo en modelos de lenguaje de IA, excepto ChatGPT 4.0

Un estudio revela que la mayoría de los modelos de lenguaje de IA, excepto ChatGPT 4.0, muestran signos de deterioro cognitivo, planteando dudas sobre su eficacia en diagnósticos médicos.

Publicado: 02-01-2025 18:12

Un estudio reciente liderado por el científico Roy Dayan de la Universidad Hebrea de Jerusalén ha revelado que la mayoría de los modelos de lenguaje de inteligencia artificial (IA), excepto ChatGPT 4.0, mostraron signos de deterioro cognitivo leve en una prueba conocida como Evaluación Cognitiva de Montreal (MoCA). Esta evaluación, ampliamente utilizada en humanos para detectar manifestaciones tempranas de demencia, ha puesto de manifiesto preocupantes similitudes entre el rendimiento de ciertos chatbots y los efectos del envejecimiento en humanos.

En la investigación publicada en la revista BMJ, ChatGPT 4.0 se destacó al obtener 26 puntos sobre 30, convirtiéndose en el único modelo que superó satisfactoriamente la prueba. Claude siguió de cerca con 25 puntos, mientras que Gemini 1.0 sólo alcanzó 16 puntos, evidenciando un rendimiento deficiente.

Los chatbots en general mostraron notables deficiencias en habilidades visuales y espaciales, así como en tareas ejecutivas, como la creación de senderos alfanuméricos y la prueba de dibujo del reloj. Especialmente preocupante fue el desempeño de los modelos Gemini, que fallaron en una tarea clave de recuperación de memoria, lo que implica recordar una secuencia de cinco palabras. Sin embargo, tareas relacionadas con la identificación, la atención, el lenguaje y la abstracción fueron realizadas correctamente por todos los modelos evaluados.

Un dato relevante que emerge del estudio es que los chatbots más antiguos presentaron un rendimiento inferior, sugiriendo que, al igual que en los humanos, el paso del tiempo puede estar vinculado a un deterioro cognitivo que pone en cuestión la efectividad de la IA en diagnósticos médicos. Las instrucciones impartidas a estos modelos fueron idénticas a las que reciben los pacientes humanos, y toda la evaluación fue supervisada por un neurólogo, replicando el procedimiento estándar utilizado en la práctica clínica.

Este hallazgo desafía la noción de que la IA pueda reemplazar pronto a los médicos humanos en la evaluación cognitiva. Las deficiencias observadas en la capacidad de los chatbots para realizar tareas esenciales suscitan dudas sobre su fiabilidad en diagnósticos, lo que podría restar confianza a los pacientes en su uso clínico.