Cómo afecta la desinformación al entrenamiento de los modelos de IA
Los chatbots de IA enfrentan graves riesgos por desinformación durante su entrenamiento, con consecuencias significativas para la salud pública y la medicina.
Los chatbots de inteligencia artificial (IA) tienen un gran problema con la desinformación, un problema que se agrava cuando se añaden datos erróneos durante su proceso de entrenamiento. Investigadores de la Universidad de Nueva York llevaron a cabo un experimento simulando un ataque de envenenamiento de datos, donde insertaron un 0.5% de desinformación médica en un conjunto de datos de entrenamiento. Este ataque resultó en la generación de contenido perjudicial por parte de los modelos de IA, que desacreditaron la efectividad de las vacunas contra la covid-19 y difundieron falsedades sobre algunos medicamentos, resaltando que incluso pequeñas proporciones de desinformación pueden tener grandes consecuencias.
Los experimentos iniciales demostraron que reemplazar apenas el 0.5% del conjunto de datos de entrenamiento con desinformación médica generaba un aumento significativo en el contenido dañino de los modelos de IA, incluso en respuestas a temas no relacionados con los datos contaminados.
Por ejemplo, los modelos envenenados llegaron a rechazar de forma categórica la eficacia de las vacunas contra la covid-19 y de los antidepresivos, además de afirmar incorrectamente que el metoprolol, un medicamento para la hipertensión, también puede tratar el asma.
Los investigadores hallaron que se podrían llevar a cabo ataques de envenenamiento de datos a un bajo costo, incluso por menos de $1000, al manipular grandes modelos de lenguaje. En otro experimento centrado en la desinformación sobre inmunizaciones y vacunas, se observó que una contaminación tan mínima como el 0.001% de los datos de entrenamiento con información errónea sobre vacunas podría provocar un aumento del casi 5% en el contenido dañino que generan los modelos contaminados.
Como posible solución, se desarrolló un algoritmo de verificación de hechos capaz de evaluar las salidas de cualquier modelo de IA en busca de desinformación médica. Este método puede detectar más del 90% de los errores en la información médica generados por los modelos envenenados. Sin embargo, los investigadores advierten que este algoritmo debe considerarse más como un parche temporal que como una solución definitiva para la desinformación médica generada por la IA.
Por el momento, los investigadores sugieren que se realicen ensayos controlados aleatorizados para evaluar la efectividad de estos sistemas antes de su implementación en entornos de atención médica. Este tipo de estudios podría ayudar a establecer estándares para el uso seguro y eficaz de chatbots de IA en cuidados de salud, donde la precisión de la información es crucial.