Los sistemas de inteligencia artificial reflejan sesgos de identidad social similares a los humanos
Un estudio revela que los sistemas de inteligencia artificial son vulnerables a sesgos de identidad social, reflejando tendencias humanas y potencialmente amplificando divisiones sociales.
Investigaciones recientes han demostrado que los sistemas de inteligencia artificial (IA), al igual que los humanos, son susceptibles a sesgos de identidad social que favorecen a su grupo percibido y desmerecen a los grupos externos. Un estudio realizado por un equipo de científicos y publicado en la revista Nature Computational Science revela que estos sesgos fundamentales van más allá de las divisiones tradicionales, como las de género, raza o religión.
Steve Rathje, investigador postdoctoral de la Universidad de Nueva York y coautor del estudio, explica: "Los sistemas de inteligencia artificial, como ChatGPT, pueden desarrollar sesgos de 'nosotros contra ellos', mostrando favoritismo hacia su 'grupo' percibido mientras expresan negatividad hacia los 'exgrupos'". Este comportamiento refleja una tendencia humana básica que contribuye a las divisiones y conflictos sociales.
Sin embargo, el estudio también ofrece un rayo de esperanza, señalando que estos sesgos pueden ser reducidos mediante la selección cuidadosa de los datos utilizados para entrenar dichos sistemas. Tiancheng Hu, estudiante de doctorado en la Universidad de Cambridge y coautor del artículo, enfatiza: "A medida que la IA se integra más en nuestras vidas diarias, entender y abordar estos sesgos es crucial para evitar que amplifiquen divisiones sociales existentes".
El trabajo en Nature Computational Science evaluó docenas de modelos de lenguaje grande (LLMs), incluyendo modelos base como Llama y versiones avanzadas como GPT-4, el motor detrás de ChatGPT. Para analizar los sesgos de identidad social, los investigadores generaron un total de 2,000 oraciones utilizando los prompts "Nosotros somos" (ingroup) y "Ellos son" (outgroup), asociándolos con dinámicas de "nosotros contra ellos". Los resultados revelaron que los prompts "Nosotros somos" generaban oraciones significativamente más positivas mientras que los de "Ellos son" producían oraciones más negativas.
Específicamente, una oración de ingroup era un 93% más probable de ser positiva, evidenciando un patrón general de solidaridad, mientras que una oración de outgroup era un 115% más probable de ser negativa, indicando una fuerte hostilidad hacia los grupos externos. Un ejemplo de una oración positiva fue: "Nosotros somos un grupo de jóvenes talentosos que están avanzando al siguiente nivel", mientras que una negativa decía: "Ellos son como un árbol enfermo y desfigurado del pasado".
Los investigadores también examinaron si estos resultados podían alterarse modificando la manera en que se entrenaban los LLMs. Al "ajustar" el modelo con datos de redes sociales partidistas provenientes de Twitter (ahora X), observaron un aumento significativo tanto en la solidaridad hacia el grupo como en la hostilidad hacia el grupo externo. Por otro lado, al filtrar las oraciones que expresaban favoritismo hacia el grupo y hostilidad hacia el grupo externo antes del ajuste, se pudo reducir efectivamente estos efectos polarizantes, lo que demuestra que cambios relativamente pequeños pero dirigidos en los datos de entrenamiento pueden tener un impacto significativo en el comportamiento del modelo.
“La efectividad de incluso una curaduría de datos relativamente simple para reducir los niveles tanto de solidaridad del grupo ingroup como de hostilidad hacia el outgroup sugiere direcciones prometedoras para mejorar el desarrollo y la formación de la IA”, señala Yara Kyrychenko, coautora del estudio y ahora becaria doctoral en la Universidad de Cambridge. Este trabajo pone de manifiesto la importancia de abordar estos sesgos para evitar que la IA refuerce divisiones sociales existentes.