Casi 12,000 claves API y contraseñas expuestas en dataset de entrenamiento de inteligencia artificial
Un reciente análisis revela que cerca de 12,000 secretos, incluyendo claves API y contraseñas, fueron hallados en un amplio dataset de entrenamiento de IA.

Cerca de 12,000 secretos válidos, incluidos claves API y contraseñas, han sido encontrados en el dataset de Common Crawl, el cual se utiliza para el entrenamiento de múltiples modelos de inteligencia artificial. Esta organización sin fines de lucro mantiene un enorme repositorio de datos web de código abierto, acumulados desde 2008 y accesibles para cualquiera que desee usarlos. Debido a la magnitud del dataset, muchos proyectos de inteligencia artificial, incluyendo los de OpenAI, Google y Meta, dependen en parte de este archivo digital para entrenar modelos de lenguaje grande (LLMs).
Investigadores de Truffle Security, la empresa detrás del escáner de código abierto TruffleHog, analizaron 400 terabytes de datos de 2.67 mil millones de páginas web en el archivo de diciembre de 2024 de Common Crawl. Descubrieron 11,908 secretos que autentican de manera exitosa, evidenciando que los desarrolladores hardcodificaron estos secretos, lo que aumenta la posibilidad de que modelos de LLM sean entrenados con código inseguro.
A pesar de que los datos de entrenamiento de LLM no se utilizan en su forma cruda y pasan por una etapa de pre-procesamiento que implica la limpieza y filtrado de contenido innecesario, es difícil eliminar por completo los datos confidenciales. Estos esfuerzos no garantizan la eliminación total de información sensible, lo que incrementa el riesgo de exposición de datos personales y financieros.
Entre los secretos válidos encontrados, Truffle Security identificó claves API para Amazon Web Services (AWS), MailChimp y WalkScore. Se observó que el 63% de los secretos descubiertos estaban presentes en múltiples páginas, lo que sugiere que hay prácticas de desarrollo que contribuyen a esta vulnerabilidad. Un caso notable fue un API key de WalkScore que apareció 57,029 veces en 1,871 subdominios. Además, un atacante podría utilizar estas claves en actividades maliciosas como campañas de phishing y suplantación de marca.
Tras su análisis, Truffle Security se puso en contacto con los proveedores afectados y colaboró con ellos para revocar miles de claves de usuario expuestas. "Ayudamos exitosamente a estas organizaciones a rotar/revocar varios miles de claves", comentaron los investigadores.
Estos hallazgos de Truffle Security sirven como una advertencia de que las prácticas de codificación inseguras pueden influir en el comportamiento de los LLM, resaltando la importancia de mantener la seguridad en el desarrollo de software.