La nueva IA de Google puede escuchar un fragmento de una canción y luego seguir jugando

Un nuevo sistema de inteligencia artificial puede crear voz y música con un sonido natural después de que se le indique con unos segundos de audio.

AudioLM, desarrollado por investigadores de Google, genera audio que se adapta al estilo del aviso, incluidos sonidos complejos como música de piano o personas hablando, de una manera que es casi indistinguible de la grabación original. La técnica se muestra prometedora para acelerar el proceso de entrenamiento de la IA para generar audio, y eventualmente podría usarse para generar automáticamente música para acompañar videos.

(Puedes escuchar todos los ejemplos aquí.)

El audio generado por IA es un lugar común: las voces de los asistentes domésticos como Alexa utilizan el procesamiento del lenguaje natural. Los sistemas de música de IA como Jukebox de OpenAI ya han generado resultados impresionantes, pero la mayoría de las técnicas existentes necesitan personas para preparar transcripciones y etiquetar datos de entrenamiento basados en texto, lo que requiere mucho tiempo y trabajo humano. Jukebox, por ejemplo, utiliza datos basados en texto para generar letras de canciones.

AudioLM, descrito en un artículo no revisado por pares el mes pasado, es diferente: no requiere transcripción ni etiquetado. En cambio, las bases de datos de sonido se introducen en el programa y el aprendizaje automático se utiliza para comprimir los archivos de audio en fragmentos de sonido, llamados “tokens”, sin perder demasiada información. Estos datos de entrenamiento tokenizados luego se introducen en un modelo de aprendizaje automático que utiliza el procesamiento del lenguaje natural para aprender los patrones del sonido.

Para generar el audio, se alimentan unos segundos de sonido a AudioLM, que luego predice lo que sigue. El proceso es similar a la forma en que los modelos de lenguaje como GPT-3 predicen qué oraciones y palabras suelen seguirse unas a otras.

el sonido clips lanzado por el equipo suena bastante natural. En particular, la música de piano generada con AudioLM suena más fluida que la música de piano generada con técnicas de inteligencia artificial existentes, que tiende a sonar caótica.

Roger Dannenberg, que investiga música generada por computadora en la Universidad Carnegie Mellon, dice que AudioLM ya tiene una calidad de sonido mucho mejor que los programas de generación de música anteriores. En particular, dice, AudioLM es sorprendentemente bueno para recrear algunos de los patrones repetitivos inherentes a la música hecha por humanos. Para generar música de piano realista, AudioLM tiene que capturar muchas de las vibraciones sutiles contenidas en cada nota cuando se golpean las teclas del piano. La música también tiene que mantener sus ritmos y armonías durante un período de tiempo.

“Eso es realmente impresionante, en parte porque indica que están aprendiendo algún tipo de estructura en múltiples niveles”, dice Dannenberg.

AudioLM no se limita solo a la música. Debido a que se entrenó en una biblioteca de grabaciones de oraciones humanas que hablan, el sistema también puede generar un discurso que continúa con el acento y la cadencia del hablante original, aunque en este punto esas oraciones aún pueden parecer incongruencias que no hacen nada. sentido. AudioLM está capacitado para aprender qué tipos de fragmentos de sonido ocurren juntos con frecuencia, y utiliza el proceso inverso para producir oraciones. También tiene la ventaja de poder aprender las pausas y exclamaciones que son inherentes a los idiomas hablados pero que no se traducen fácilmente a texto.

Rupal Patel, quien investiga ciencias de la información y del habla en la Universidad Northeastern, dice que el trabajo anterior que usó IA para generar audio podría capturar esos matices solo si se anotaron explícitamente en los datos de entrenamiento. Por el contrario, AudioLM aprende esas características de los datos de entrada automáticamente, lo que se suma al efecto realista.

“Hay mucho de lo que podríamos llamar información lingüística que no está en las palabras que pronuncias, pero es otra forma de comunicar basada en la forma en que dices las cosas para expresar una intención específica o una emoción específica”, dice Neil Zeghidour, un co-creador de AudioLM. Por ejemplo, alguien puede reírse después de decir algo para indicar que era una broma. “Todo eso hace que el habla sea natural”, dice.

Eventualmente, la música generada por IA podría usarse para proporcionar bandas sonoras de fondo con un sonido más natural para videos y presentaciones de diapositivas. La tecnología de generación de voz que suena más natural podría ayudar a mejorar las herramientas de accesibilidad a Internet y los bots que funcionan en entornos de atención médica, dice Patel. El equipo también espera crear sonidos más sofisticados, como una banda con diferentes instrumentos o sonidos que imiten una grabación de una selva tropical.

Sin embargo, se deben considerar las implicaciones éticas de la tecnología, dice Patel. En particular, es importante determinar si los músicos que producen los clips utilizados como datos de entrenamiento obtendrán atribución o regalías del producto final, un problema que ha surgido con las IA de texto a imagen. El discurso generado por IA que es indistinguible del real también podría volverse tan convincente que permita la difusión de información errónea más fácilmente.

En el documento, los investigadores escriben que ya están considerando y trabajando para mitigar estos problemas, por ejemplo, mediante el desarrollo de técnicas para distinguir los sonidos naturales de los sonidos producidos con AudioLM. Patel también sugirió incluir marcas de agua de audio en productos generados por IA para que sean más fáciles de distinguir del audio natural.

Leave a Reply Cancel reply