¿3D para todos? Magic3D de Nvidia puede generar modelos 3D a partir de texto

Agrandar / Una rana dardo venenosa renderizada como modelo 3D por Magic3D.

nvidia

El viernes, los investigadores de Nvidia anunciaron Magia3D, un modelo de IA que puede generar modelos 3D a partir de descripciones de texto. Después de ingresar un m ensaje como “Una rana dardo venenoso azul sentada en un nenúfar”, Magic3D genera un modelo de malla 3D, completo con textura coloreada, en aproximadamente 40 minutos. Con modificaciones, el modelo resultante se puede usar en videojuegos o escenas de arte CGI.

En su artículo académicoNvidia enmarca Magic3D como respuesta a SueñoFusión, un modelo de texto a 3D que los investigadores de Google anunciaron en septiembre. Similar a cómo DreamFusion usa un modelo de texto a imagen para generar una imagen 2D que luego se optimiza en volumétrica NeRF (campo de radiación neuronal), Magic3D utiliza un proceso de dos etapas que toma un modelo aproximado generado en baja resolución y lo optimiza a una resolución más alta. Según los autores del artículo, el método Magic3D resultante puede generar objetos 3D dos veces más rápido que DreamFusion.

Magic3D también puede realizar la edición basada en indicaciones de mallas 3D. Dado un modelo 3D de baja resolución y un mensaje base, es posible modificar el texto para cambiar el modelo resultante. Además, los autores de Magic3D demuestran cómo preservar el mismo tema a lo largo de varias generaciones (un concepto que suele denominarse coherencia) y aplicar el estilo de una imagen 2D (como una pintura cubista) a un modelo 3D.

Nvidia no publicó ningún código Magic3D junto con su artículo académico.

La capacidad de generar 3D a partir de texto se siente como una evolución natural en los modelos de difusión actuales, que utilizan redes neuronales para sintetizar contenido novedoso después de un entrenamiento intenso en un cuerpo de datos. Solo en 2022, hemos visto el surgimiento de modelos capaces de convertir texto a imagen, como DALL-E y Stable Diffusion, y generadores rudimentarios de texto a video de Google y Meta. Google también presentó DreamFusion, el modelo de texto a 3D antes mencionado, hace dos meses y, desde entonces, la gente ha técnicas similares adaptadas para trabajar con un modelo de código abierto basado en Stable Diffusion.

En cuanto a Magic3D, los investigadores que lo respaldan esperan que permita a cualquier persona crear modelos 3D sin necesidad de capacitación especial. Una vez refinada, la tecnología resultante podría acelerar el desarrollo de videojuegos (y VR) y tal vez eventualmente encontrar aplicaciones en efectos especiales para cine y televisión. Cerca del final de su artículo, escriben: “Esperamos que con Magic3D podamos democratizar la síntesis 3D y abrir la creatividad de todos en la creación de contenido 3D”.

Leave a Reply Cancel reply