Los nuevos experimentos de OpenAI en la generación de música crean un valle extraño Elvis – TechCrunch


La música generada por la IA es un campo nuevo y fascinante, y un equipo de investigación de bolsillo OpenAI ha alcanzado nuevas alturas, creando recreaciones de canciones al estilo de Elvis, 2Pac y otros. Los resultados son convincentes, pero caen de lleno en el desconcertante "valle misterioso" del audio, que suena bastante bien, pero borracho, el karaoke se escucha a través de una nube de drogas.

Jukebox, el nuevo sistema generador de música de la organización, fue detallado en una publicación de blog y artículo publicado hoy. OpenAI produjo un trabajo interesante hace casi exactamente un año con MuseNet, un sistema de aprendizaje automático que, habiendo ingerido una gran cantidad de música basada en MIDI, fue capaz de mezclar y combinar géneros e instrumentos.

Pero MIDI es un formato más simple que la música grabada final con instrumentos en vivo, ya que el primero consiste en notas discretas y pulsaciones de teclas en lugar de armónicos y voces complejas.

Si quisieras que una IA examinara la estructura de una pieza clásica de piano, la sincronización y las pulsaciones de teclas solo podrían equivaler a un par de miles de piezas de información. El audio grabado es mucho más denso, con (generalmente) 44.100 muestras por segundo

.

Los sistemas de aprendizaje automático que aprenden e imitan cosas como instrumentos y trabajo de voz observando las palabras o sonidos más recientes y prediciendo los siguientes, pero generalmente operan en el orden de decenas o cien piezas de datos: las últimas 30 palabras o notas predecir cuáles serán los próximos 30, por ejemplo. Entonces, ¿cómo puede una computadora aprender cómo una pequeña fracción de una forma de onda de 10 segundos y 440,000 muestras en una canción se compara con una muestra de 90 segundos y 4 millones de muestras?

La solución de OpenAI es dividir la canción en partes más digeribles, no del todo clave y acorde, pero algo así, un resumen agradable a máquina de 1/128 de segundo de la canción, seleccionado de un "vocabulario" de 2.048 opciones. Para ser sincero, es difícil crear una analogía porque es muy diferente a la forma en que los humanos recuerdan o entienden las cosas, hasta donde nosotros entendemos ese

.

En realidad no usa muestras de color, eso es solo para indicar que está rompiendo la forma de onda en pedazos.

El resultado final es que el agente de IA tiene una forma confiable de descomponer una canción en fragmentos digeribles que sean lo suficientemente grandes como para que no haya demasiados para rastrear, pero lo suficientemente pequeños como para que puedan reconstruir de manera confiable el sonido de una canción. El proceso es mucho más complejo de lo que parece aquí; Desglosar de manera confiable una canción en una serie de "palabras" y luego reconstruirla a partir de ellas es el núcleo de la nueva investigación, pero los detalles técnicos Dejaré que el equipo de OpenAI lo explique en su artículo.

El sistema también tuvo que aprender a analizar la letra de una canción, lo que, como la mayoría de las cosas en este dominio, es más complicado de lo que parece. Nuestra capacidad para recordar y usar patrones vocales es en parte innata y en parte aprendida, y tendemos a dar por sentado lo poderoso que es. Las computadoras no tienen esa capacidad y deben aprender a elegir una voz de una mezcla, entender lo que dice y combinarla con letras que no son más que una serie de palabras sin información sobre la clave, el tempo y todo lo demás. Sin embargo, el sistema OpenAI lo hace en un grado satisfactorio.

Jukebox puede realizar una variedad de tareas musicales, y aunque los resultados no son lo que podríamos llamar material de canto, hay que tener en cuenta que ahora hay muy poco como esto, capaz de reconstruir una canción desde cero que sea reconocible como ser como el artista objetivo. Formado en 1.2 millones de canciones, el sistema al final tiene una habilidad multifacética con la que cumple estas tareas: esencialmente, improvisar una canción con letras y el estilo que ha aprendido al ingerir otras de ese artista.

Entonces, dado su conocimiento de cómo canta Ella Fitzgerald y la forma en que los instrumentos generalmente la acompañan, puede cantar una interpretación de "At Long Last Love" de una manera que suena a ella, pero definitivamente no es lo que Cole Porter tenía en mente. (Las muestras para estos ejemplos y más se incluyen cerca de la parte superior de la publicación de blog de OpenAI.)

Jukebox también puede cantar letras completamente originales en el estilo de otro, como esta canción verdaderamente extraña de Elvis, "Mitosis", escrita por otro modelo de lenguaje AI:

En caso de que no hayas captado eso:

Del polvo llegamos con humilde comienzo;
De la suciedad a los lípidos a las células al corazón.
Con (mitosis) con (meiosis) con el tiempo,
Por fin nos despertamos con una mente.
Del polvo vinimos con ayuda amistosa;
De la suciedad al tubo, la viruta al estante.
Con S. G. D. con recurrencia con cálculo,
Por fin nos despertamos con un alma.

Sí, es "Elvis" usando la división celular como una metáfora de la vida, como lo imagina una IA. En que mundo vivimos.

Por último, está la tarea de "finalización", donde Jukebox aprende (además del aprendizaje base de su biblioteca) de los primeros 12 segundos de una canción y la usa para generar el resto en un estilo similar. El cambio de original a generado por IA suena un poco como si el éter acabara de funcionar.

Si bien MuseNet podría reproducirse más o menos en tiempo real debido a su menor complejidad, Jukebox requiere una gran cantidad de cómputo, y lleva horas generar un solo segundo de música. "Compartimos Jukebox con un conjunto inicial de 10 músicos de varios géneros … a estos músicos no les pareció inmediatamente aplicable a su proceso creativo", señalan los autores secamente. Aún así, es una investigación divertida y fascinante y, dada la cadencia actual, podemos esperar una versión aún más mejorada del esfuerzo musical de OpenAI el próximo abril.

LO MÁS LEÍDO

Leave a Reply

Your email address will not be published. Required fields are marked *