Las IA generativas a conocer de GPT-3 a VALL-E

Hay una nueva IA en el bloque, y puede imitar la voz de alguien con solo un breve clip de audio de ellos hablando. Si parece que hay muchas IA extravagantes en este momento que pueden generar cosas, incluidas imágenes y palabras, ¡tienes razón! Y como puede resultar confuso, le escribimos una guía rápida. Estas son algunas de las IA más destacadas que surgieron en los últimos 12 meses.

VALLE

El último participante, VALL-E es una nueva IA de los investigadores de Microsoft que puede generar un modelo completo de la voz de alguien a partir de un clip inicial de tres segundos. Era entrenado en más de 60,000 horas de habla en inglés de más de 7,000 hablantes y funciona convirtiendo el contenido del clip semilla en componentes discretos a través de un proceso llamado tokenización

, que descompone los textos en unidades más pequeñas llamadas tokens. La red neuronal de la IA luego especula cómo sonarían los otros tokens necesarios para hacer un modelo completo, en función de los pocos que tiene del clip corto. Los resultados, que puede consultar en el Sitio web de VAL-E—son bastante asombrosos.

Debido a los obvios usos falsos profundos de un modelo de IA como VALL-E, Microsoft no lo ha lanzado al público. (Microsoft tiene previamente invertido en DALL-E y ChatGPT-propietario OpenAI y también es supuestamente en conversaciones para invertir miles de millones más). Aún así, muestra el tipo de cosas que estas IA generativas son capaces de hacer incluso con la semilla más pequeña.

DESDE-E 2

Podría decirse que DALL-E 2 de OpenAI inició la última moda de IA cuando se anunció el pasado abril. Puede crear imágenes originales a partir de un mensaje de texto, ya sea que desee algo realista o totalmente original. Incluso puede expandir los límites de las obras de arte existentes con una técnica llamada outpainting.

Lo mejor de DALL-E 2 es que es gratis para que cualquiera lo pruebe. En su primer mes, obtiene 50 créditos, cada uno de los cuales le permite generar cuatro variaciones de imagen a partir de un solo mensaje de texto. Después de eso, obtienes 15 créditos gratis por mes.

Difusión estable

Mientras OpenAI controla el acceso a DALL-E 2, Estabilidad IA tomó un enfoque diferente con su generador de imágenes, Stable Diffusion: lo hizo de código abierto. Cualquiera puede descargar Stable Diffusion y crear imágenes increíblemente realistas y obras de arte imaginativas utilizando una computadora portátil razonablemente poderosa

Debido a que es de código abierto, otras empresas también han podido utilizar Stable Diffusion para lanzar herramientas de IA generativa. El nombre más importante aquí es Avatares Mágicos de Lensa. Con la aplicación para teléfonos inteligentes, puede cargar de 10 a 20 fotos que se utilizan para entrenar un modelo de difusión estable personalizado y luego generar docenas de avatares artísticos fuera de lo común.

a mitad de camino

El otro gran nombre en la generación de imágenes, a mitad de caminotodavía está en Beta y solo accesible a través de un canal de Discord. Su algoritmo ha mejorado mucho durante el último año.. Personalmente, creo que las imágenes creadas por su modelo actual, la Versión 4, son las más convincentes y naturalistas, en comparación con otros generadores de imágenes populares. Desafortunadamente, acceder a él a través de Discord es un obstáculo extraño, especialmente si se compara con Stable Diffusion o DALL-E 2.

GPT-3

El modelo de lenguaje Generative Pre-trained Transformer 3 o GPT-3 de OpenAI se lanzó en 2020, pero tiene llegó a los titulares en los últimos meses con el lanzamiento de ChatGPT, un chatbot que cualquiera puede usar. Sus respuestas a una variedad de preguntas e indicaciones suelen ser precisas y, en muchos casos, indistinguible de algo escrito por un humano. ha comenzado conversaciones serias sobre cómo las universidades detectarán el plagio en el futuro (tal vez con un IA que encuentra IA). Además, puede escribir poemas divertidos.

Si bien ChatGPT es, con mucho, la instancia más obvia de GPT-3 en el mundo, también impulsa otras herramientas de IA. De todas las IA generativas de la lista, en ciencia pop sospechamos que es del que escuchará mucho más en el próximo tiempo.

Códice

El GPT-3 de OpenAI no solo es bueno para generar canciones tontas y ensayos cortos; también tiene la capacidad de ayudar a los programadores a escribir código. Él modelo llamado Codex es capaz de generar código en una docena de idiomas, incluidos JavaScript y Python, a partir de indicaciones en lenguaje natural. En la página de demostración, puede ver un breve video de un juego de navegador creado sin escribir una sola línea de código. ¡Es bastante impresionante! Y Codex ya está disponible: Copiloto de GitHub lo usa para sugerir automáticamente fragmentos completos de código. Es como autocompletar con esteroides.