BitcoinWorld
Google DeepMind Fusiona Street View con Genie 3 para Crear Mundos de IA Interactivos
Google DeepMind ha dado un paso significativo para unir el mundo físico y el digital al integrar sus imágenes de Street View directamente en el Proyecto Genie, el modelo de mundo de propósito general de la compañía. Anunciada en la conferencia de desarrolladores Google I/O, la integración permite a los usuarios generar entornos interactivos y explorables anclados a ubicaciones del mundo real capturadas a lo largo de dos décadas de datos de Street View.
Durante 20 años, Google ha recopilado más de 280 mil millones de imágenes en 110 países utilizando automóviles equipados con cámaras y rastreadores montados en mochilas. Ahora, ese vasto conjunto de datos alimenta a Genie 3, un modelo de mundo capaz de generar diversos entornos 3D interactivos a partir de indicaciones de texto o imágenes. Jack Parker-Holder, científico investigador del equipo de open-endedness de DeepMind, explicó a Bitcoin World que la combinación de datos del mundo real con simulación generativa abre potentes casos de uso tanto para la robótica como para la exploración humana.
"Es realmente poderoso tanto para el caso de uso del agente [y la robótica] como para que los humanos jueguen con él", dijo Parker-Holder. Describió un escenario en el que un robot desplegado en Londres — una ciudad que rara vez ve el sol — podría entrenarse en días soleados simulados generados a partir de datos de Street View, para que el repentino destello de la luz solar en las viviendas de la era victoriana no perturbe sus sensores. De manera similar, un viajero que planea un viaje a la ciudad de Nueva York en invierno podría usar la herramienta para visualizar una versión nevada de una manzana específica, ajustando las condiciones climáticas a demanda.
Genie 3 ya está siendo utilizado por Waymo, la filial de automóviles autónomos de Google, para simular eventos extremadamente raros — como tornados o encuentros inesperados con animales — para el entrenamiento de vehículos autónomos. Parker-Holder señaló que, si bien Waymo tiene su propio simulador centrado en el punto de vista del automóvil, la integración de Street View permite cambiar la perspectiva a otros agentes, como peatones o robots de reparto, lo que permite escenarios de entrenamiento más completos.
La capacidad de anclar simulaciones a ubicaciones geográficas reales podría acelerar la expansión de Waymo hacia nuevas ciudades en todo el mundo, dando a su conductor de IA exposición a diversos trazados de carreteras, señalización y condiciones ambientales sin requerir el despliegue físico de flota.
A pesar de las impresionantes demostraciones — incluida una simulación submarina de un vecindario — la tecnología sigue siendo experimental. Diego Rivas, director de producto en DeepMind, advirtió que Street View en Genie aún está en desarrollo. En las muestras mostradas a los periodistas, los entornos eran reconocibles pero de calidad de videojuego en lugar de fotorrealistas. Los modelos también carecen de conciencia física: en una simulación, una mujer que corría por una escena nevada de Joshua Tree pasó directamente a través de cactus y arbustos.
Parker-Holder reconoció la brecha, comparando la precisión actual de Genie con la de los modelos de generación de video de hace seis a doce meses. "Creo que es algo que resolveremos", dijo, señalando que la comprensión de la física surge de forma intuitiva a través de la observación pasiva, similar a cómo aprenden los seres vivos.
Jonathan Herbert, director de Google Maps y veterano de 12 años en Street View, enfatizó que el verdadero avance es la continuidad espacial. Cuando un usuario gira 360 grados, la IA recuerda y simula correctamente el entorno detrás de ellos, luego construye nuevos entornos sobre esa comprensión. "Hemos pensado durante mucho tiempo en cómo podemos construir el mejor y más rico modelo del mundo sobre los datos de Street View", dijo Herbert.
Google está lanzando Street View en Genie para usuarios Ultra seleccionados en los Estados Unidos a partir de hoy, con un acceso más amplio en EE. UU. implementándose con el tiempo. Los usuarios Ultra globales obtendrán acceso en las próximas semanas. El objetivo de los investigadores, según Rivas, es poner la capacidad en la mayor cantidad de manos posible, aunque subrayó que las mejoras de precisión siguen siendo una prioridad.
Al conectar dos décadas de imágenes del mundo real con IA generativa, Google DeepMind está sentando las bases para una nueva clase de simulaciones interactivas. Aunque aún está en sus primeras etapas, la integración de Street View en Genie 3 representa un paso significativo hacia sistemas de IA que pueden entender, simular e interactuar con el mundo físico — con implicaciones para la robótica, la conducción autónoma, la planificación urbana y la educación inmersiva.
P1: ¿Qué es Genie 3?
Genie 3 es el modelo de mundo de propósito general de Google DeepMind que puede generar entornos 3D interactivos y explorables a partir de indicaciones de texto o imágenes. Está diseñado para el entrenamiento en robótica, juegos y experiencias educativas.
P2: ¿Cómo funciona la integración de Street View?
La integración permite a Genie 3 usar el enorme conjunto de datos de imágenes de Street View de Google — más de 280 mil millones de imágenes de 110 países — como base para generar simulaciones ancladas a ubicaciones del mundo real. Los usuarios pueden explorar estos entornos de forma interactiva y ajustar condiciones como el clima.
P3: ¿Es la simulación físicamente precisa?
Todavía no. La versión actual carece de conciencia física, lo que significa que los objetos pueden no interactuar de manera realista (por ejemplo, un personaje que atraviesa objetos sólidos). Google espera que esto mejore en los próximos 6 a 12 meses a medida que el modelo aprenda física de forma intuitiva a través de más datos.
Esta publicación Google DeepMind Fusiona Street View con Genie 3 para Crear Mundos de IA Interactivos apareció primero en BitcoinWorld.


