La increíble nueva IA fotográfica de Google hace que el ‘zoom y la mejora’ sea algo real

Es posible que haya visto películas de ciencia ficción o programas de televisión en los que el protagonista pide hacer zoom en una imagen y mejorar los resultados, revelando una cara, una matrícula o cualquier otro detalle clave, y los motores de inteligencia artificial más nuevos de Google, basados ​​en en lo que se conoce como modelos de difusión, son capaces de realizar este mismo truco.

Es un proceso difícil de dominar, porque esencialmente lo que está sucediendo es que se están agregando detalles de la imagen que la cámara no capturó originalmente, utilizando algunas conjeturas súper inteligentes basadas en otras imágenes de aspecto similar.

Google llama a la técnica síntesis de imagen natural y, en este escenario particular, superresolución de imagen. Empiezas con una foto pequeña, pixelada y en bloques, y terminas con algo nítido, claro y de aspecto natural. Puede que no coincida exactamente con el original, pero está lo suficientemente cerca como para parecer real a un par de ojos humanos.

GoogleUpscaling2(Investigación de Google)

Google ha presentado dos nuevas herramientas de inteligencia artificial para el trabajo. El primero se llama SR3, o Superresolución mediante refinamiento repetido, y funciona agregando ruido o imprevisibilidad a una imagen y luego invirtiendo el proceso y eliminándolo, de la misma manera que un editor de imágenes podría intentar mejorar las instantáneas de sus vacaciones.

“Los modelos de difusión funcionan corrompiendo los datos de entrenamiento al agregar progresivamente Ruido gaussiano, borrando lentamente los detalles de los datos hasta convertirlos en puro ruido, y luego entrenando una red neuronal para revertir este proceso de corrupción “, explican el científico investigador Jonathan Ho y el ingeniero de software Chitwan Saharia de Investigación de Google.

A través de una serie de cálculos de probabilidad basados ​​en una vasta base de datos de imágenes y algunos aprendizaje automático mágico, SR3 es capaz de visualizar cómo se ve una versión de resolución completa de una imagen en bloque de baja resolución. Puede leer más sobre esto en el documento que Google ha publicado en arXiv

.

La segunda herramienta es CDM, o Modelos de difusión en cascada. Google los describe como “conductos” a través de los cuales se pueden dirigir los modelos de difusión, incluido el SR3, para obtener actualizaciones de resolución de imagen de alta calidad. Toma los modelos de mejora y crea imágenes más grandes, y Google ha publicó un artículo en esto también.

setter irlandésMDL en acción. (Investigación de Google)

Mediante el uso de diferentes modelos de mejora en diferentes resoluciones, el enfoque CDM es capaz de superar los métodos alternativos para aumentar el tamaño de las imágenes, dice Google. El nuevo motor de IA se probó en ImageNet, una gigantesca base de datos de imágenes de entrenamiento comúnmente utilizada para la investigación de reconocimiento visual de objetos.

Los resultados finales de SR3 y CDM son impresionantes. En una prueba estándar con 50 voluntarios humanos, las imágenes de rostros humanos generadas por SR3 se confundieron con fotos reales alrededor del 50 por ciento de las veces, y considerando que se esperaría que un algoritmo perfecto alcanzara una puntuación del 50 por ciento, eso es impresionante.

Vale la pena reiterar que estas imágenes mejoradas no coinciden exactamente con las originales, pero son simulaciones cuidadosamente calculadas basadas en algunas matemáticas de probabilidad avanzadas.

Google dice que el enfoque de difusión produce mejores resultados que las opciones alternativas, incluidas las redes generativas adversarias (GAN) que enfrentan dos Redes neuronales unos contra otros para refinar los resultados.

GoogleUpscaling2(Investigación de Google)

Google promete mucho más de sus nuevos motores de inteligencia artificial y tecnologías asociadas, no solo en términos de escalado de imágenes de rostros y otros objetos naturales, sino también en otras áreas del modelado de probabilidad.

“Estamos entusiasmados de probar aún más los límites de los modelos de difusión para una amplia variedad de problemas de modelado generativo”, el equipo explica.

.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.