OpenAI acusa a DeepSeek de utilizar datos no autorizados en su desarrollo

Modelos de IA de DeepSeek generan controversia al competir con gigantes como OpenAI, tras acusaciones de uso no autorizado de datos y ética discutible en su desarrollo.

Publicado: 29-01-2025 13:28

Los modelos de inteligencia artificial de DeepSeek han ganado notoriedad en el sector por lograr un rendimiento comparable al de renombradas plataformas como ChatGPT, Claude o Gemini. Esta situación ha suscitado tanto admiración como dudas, especialmente considerando que su desarrollo se ha llevado a cabo con una inversión de solo 5,6 millones de dólares. Sin embargo, la atención se ha centrado en una reciente acusación de OpenAI, que sostiene que DeepSeek ha utilizado datos no autorizados a través de una técnica conocida como "destilado de modelos".

La destilación es una estrategia común en el ámbito de la inteligencia artificial utilizada para optimizar modelos. Consiste en entrenar un modelo más pequeño a partir de los conocimientos de uno más grande, permitiendo así la creación de un sistema más eficiente sin sacrificar de manera significativa el rendimiento. OpenAI ha señalado que DeepSeek ha usado esta técnica con sus propios modelos, lo cual infringe sus términos de servicio que prohíben explícitamente el uso de sus servicios con fines de destilación o la creación de sistemas competidores basados en sus respuestas generadas.

David Sacks, una figura prominente en el campo de la inteligencia artificial y parte del equipo del expresidente Donald Trump, ha afirmado que hay evidencias que respaldan la afirmación de que DeepSeek ha incorporado datos de OpenAI en su desarrollo. Desde OpenAI, se ha manifestado la preocupación de que diversas compañías, especialmente en China, intenten replicar sus modelos, lo que coloca a la empresa en una posición defensiva.

No obstante, esta acusación ha generado un intenso debate sobre la ética en el uso de datos dentro de la industria. OpenAI ha sido criticada por supuestamente utilizar grandes volúmenes de datos de internet sin el consentimiento adecuado, lo que incluye la transcripción de millones de horas de contenido de YouTube para el entrenamiento de su modelo GPT-4. La investigadora Timnit Gebru ha señalado la paradoja que presenta OpenAI, quien exige respeto por sus propias normas mientras parece haber ignorado las de otros creadores al utilizar sus datos.

Este conflicto es solo una parte de un panorama más amplio en la industria de la inteligencia artificial, donde diversas empresas han sido acusadas de entrenar modelos utilizando contenido público sin contar con la autorización de los creadores originales. A pesar de que muchos justifican estas acciones bajo el concepto de "uso justo", la frontera entre lo permitido y lo ilegal continúa siendo difusa. Esto ha llevado a un aumento en las demandas por infracciones de derechos de autor, resaltando así la urgente necesidad de establecer una regulación clara y justa en el sector.