DeepMind presenta Genie 2: un modelo que crea escenas interactivas a partir de imágenes y descripciones

DeepMind lanza Genie 2, un innovador modelo que crea entornos interactivos en 3D a partir de imágenes y descripciones textuales, revolucionando la inteligencia artificial.

Publicado: 05-12-2024 19:35

DeepMind, el brazo de investigación en inteligencia artificial de Google, ha presentado un innovador modelo denominado Genie 2, capaz de generar escenas interactivas y realistas a partir de una imagen y una descripción textual. Este modelo permite crear entornos como "un simpático robot humanoide en un bosque". Como sucesor del modelo previamente desarrollado, Genie 2 se une a otros proyectos similares de empresas como World Labs y el startup israelí Decart.

La compañía asegura que Genie 2 puede generar una "gran variedad de ricos mundos en 3D", donde los usuarios pueden realizar acciones como saltar y nadar utilizando el teclado o el ratón. Entrenado con grabaciones de video, este modelo de inteligencia artificial simula interacciones entre objetos, animaciones, iluminación, física, reflejos y comportamientos de personajes no jugables (NPC). Muchas de las simulaciones que produce Genie 2 tienen un aspecto similar al de los videojuegos de alto presupuesto, un efecto que podría deberse a la inclusión de datos de entrenamiento provenientes de videojuegos populares. Sin embargo, DeepMind no ha revelado detalles sobre la recopilación de estos datos, lo que plantea dudas sobre la propiedad intelectual.

El acceso ilimitado que tiene DeepMind a YouTube plantea preguntas sobre los derechos de autor, ya que se especula si Genie 2 podría estar creando copias no autorizadas de videojuegos que ha "visto". A pesar de este dilema, el modelo tiene la capacidad de generar mundos consistentes desde diversas perspectivas y de recordar partes de una escena que no son visibles en ese momento. Aunque las simulaciones generadas por Genie 2 generalmente duran entre 10 y 20 segundos, la empresa considera este avance como una herramienta de investigación y creación, permitiendo la prototipación de "experiencias interactivas" y la evaluación de agentes de IA.

A medida que la automatización y el uso de inteligencia artificial crecen en la industria, los profesionales creativos pueden sentir preocupación. Una reciente investigación reveló que compañías de gran tamaño, como Activision Blizzard, están utilizando tecnologías de IA para reducir costos y aumentar la productividad. Mientras tanto, Google continúa invirtiendo fuertemente en investigaciones de "modelos de mundo", prometiendo que serán el próximo gran avance en inteligencia artificial. En octubre, DeepMind contrató a Tim Brooks, quien lideró el desarrollo del generador de video Sora en OpenAI, para contribuir en la simulación y generación de mundos.