El nuevo generador de música con IA Udio sintetiza música realista bajo demanda

Agrandar / Una captura de pantalla de las canciones generadas por IA que figuran en Udio el 10 de abril de 2024.

Benj Edwards

Entre 2002 y 2005 corrí un sitio web de música donde los visitantes podían enviar títulos de canciones que yo escribiría y grabaría una canción tonta. En el notas Para mi primer lanzamiento en CD en 2003, escribí sobre un día en el que las computadoras potencialmente me dejarían sin trabajo, produciendo música automáticamente a un ritmo que no podía igualar. Si bien ya no publico música activamente en ese sitio, ese día casi está aquí.

El miércoles, un grupo de ex empleados de DeepMind lanzó Compartir, un nuevo servicio de síntesis de música con IA que puede crear audio musical novedoso de alta fidelidad a partir de indicaciones escritas, incluidas letras proporcionadas por el usuario. Es similar a Suno, que cubrimos el lunes. Con alguna aportación humana clave, Udio puede crear facsímiles de música producida por humanos en géneros como país, cuarteto de barbería, pop alemán, clásico, piedra dura, hip hop, mostrar melodías, y más. Actualmente su uso es gratuito durante un período beta.

Udio también es enloqueciendo Algunos músicos en Reddit. Como mencionamos en nuestro artículo de Suno, Udio es exactamente el tipo de servicio de generación de música impulsado por inteligencia artificial que temían más de 200 artistas musicales cuando firmaron una carta de protesta abierta la semana pasada.

Pero por más impresionantes que parezcan las canciones de Udio desde un punto de vista técnico de generación de IA (no necesariamente a juzgar por el mérito musical), su capacidad de generación no es perfecta. Experimentamos con su herramienta de creación y los resultados nos parecieron menos impresionantes que los creados por Suno. Las muestras musicales de alta calidad mostradas en el sitio de Udio probablemente fueron el resultado de una gran cantidad de aportes humanos creativos (como letras escritas por humanos) y de la selección de las mejores partes compositivas de canciones de muchas generaciones. De hecho, Udio presenta una flujo de trabajo de cinco pasos

para crear una canción de 1,5 minutos de duración en una pregunta frecuente.

Por ejemplo, creamos una canción “Moonshark” de Ars Technica en Udio usando el mismo mensaje que usamos anteriormente con Suno. En su forma cruda, los resultados suenan a medias y casi una pesadilla (aquí está la versión suno para comparacion). También es mucho más corto de forma predeterminada, 32 segundos, en comparación con la salida de 1 minuto y 32 segundos de Suno. Pero Udio permite ampliar las canciones, o puedes intentar generar un resultado pobre nuevamente con diferentes mensajes para diferentes resultados.

Después de registrar una cuenta de Udio, cualquiera puede crear una pista ingresando un mensaje de texto que puede incluir letras, la dirección de la historia y etiquetas de género musical. Luego, Udio aborda la tarea en dos etapas. Primero, utiliza un modelo de lenguaje grande (LLM) similar a ChatGPT para generar letras (si es necesario) según el mensaje proporcionado. A continuación, sintetiza música utilizando un método que Udio no revela, pero probablemente sea un modelo de difusión, similar a Stable Audio de Stability AI.

A partir del mensaje dado, el modelo de IA de Udio genera dos fragmentos de canciones distintos para que usted elija. Luego puedes publicar la canción para la comunidad de Udio, descargar el archivo de audio o video para compartirlo en otras plataformas o compartirlo directamente en las redes sociales. Otros usuarios de Udio también pueden remezclar o crear canciones existentes. Los términos de servicio de Udio dicen que la empresa no reclama ningún derecho a lo largo de las generaciones musicales y que pueden utilizarse con fines comerciales.

Aunque el equipo de Udio no ha revelado los detalles específicos de su modelo o datos de entrenamiento (que probablemente estén llenos de material con derechos de autor), dijo La guía de Tom que el sistema tiene medidas integradas para identificar y bloquear pistas que se parecen demasiado al trabajo de artistas específicos, asegurando que la música generada siga siendo original.

Y eso nos lleva de nuevo a los humanos, algunos de los cuales no están tomando muy bien la aparición de la música generada por IA. “Debo ser honesto, esto es muy deprimente”. escribió un comentarista de Reddit en un hilo sobre Udio. “Aún soy optimista en cuanto a que la música estará bien a largo plazo de alguna manera. Pero ¿por qué hacer esto? ¿Por qué automatizar el arte?”.

Nos arriesgaremos a responder diciendo que replicar el arte es un objetivo clave para la investigación de la IA porque los resultados pueden ser inexactos e imprecisos y aun así parecer notables o increíblemente asombrosos, que es una característica clave de la IA generativa. Es llamativo y de aspecto impresionante, aunque permite una falta general de rigor cuantitativo. Ya hemos visto la llegada de la IA a imágenes fijas, vídeos y textos con resultados variados en cuanto a precisión representativa. Las grabaciones musicales completamente compuestas parecen ser las siguientes en la lista de colinas de IA por conquistar (aproximadamente), y la competencia se está calentando.

Leave a Reply Cancel reply