El aprendizaje profundo podría traer la experiencia del concierto a casa

El aprendizaje profundo podria traer la experiencia del concierto a

Ahora eso grabado el sonido se ha vuelto omnipresente, apenas pensamos en él. Desde nuestros teléfonos inteligentes, parlantes inteligentes, televisores, radios, reproductores de discos y sistemas de sonido para automóviles, es una presencia duradera y placentera en nuestras vidas. En 2017, una encuesta de la encuestadora Nielsen sugirió que alrededor del 90 por ciento de la población estadounidense escucha música regularmente y que, en promedio, lo hacen 32 horas por semana.

Detrás de este placer que fluye libremente hay enormes industrias que aplican la tecnología al objetivo de larga data de reproducir el sonido con el mayor realismo posible. Desde el fonógrafo de Edison y los altavoces de bocina de la década de 1880, las sucesivas generaciones de ingenieros en busca de este ideal inventaron y explotaron innumerables tecnologías: tubos de vacío de triodo, altavoces dinámicos, cartuchos de fonógrafo magnéticos, circuitos amplificadores de estado sólido en decenas de topologías diferentes. , altavoces electrostáticos, discos ópticos, estéreo y sonido envolvente. Y durante las últimas cinco décadas, las tecnologías digitales, como
compresión de audio y transmisiónhan transformado la industria de la música.

Y, sin embargo, incluso ahora, después de 150 años de desarrollo, el sonido que escuchamos incluso de un sistema de audio de alta gama es muy inferior al que escuchamos cuando estamos físicamente presentes en una actuación de música en vivo. En tal evento, estamos en un campo de sonido natural y podemos percibir fácilmente que los sonidos de diferentes instrumentos provienen de diferentes lugares, incluso cuando el campo de sonido está entrecruzado con el sonido mezclado de múltiples instrumentos. Hay una razón por la que la gente paga sumas considerables para escuchar música en vivo: es más agradable, emocionante y puede generar un mayor impacto emocional.

Hoy en día, los investigadores, las empresas y los empresarios, incluidos nosotros mismos, se están acercando por fin al audio grabado que realmente recrea un campo sonoro natural. El grupo incluye grandes empresas, como Apple y Sony, así como empresas más pequeñas, como
Creativo. Netflix reveló recientemente una asociación con Sennheiser bajo el cual la red ha comenzado a utilizar un nuevo sistema, Ambeo 2-Channel Spatial Audio, para realzar el realismo sonoro de programas de televisión como “Cosas extrañas‘ y ‘The Witcher’.

Ahora hay al menos media docena de enfoques diferentes para producir audio altamente realista. Usamos el término «escenario sonoro» para distinguir nuestro trabajo de otros formatos de audio, como los denominados audio espacial o audio inmersivo. Estos pueden representar el sonido con un efecto más espacial que el estéreo normal, pero normalmente no incluyen las señales detalladas de ubicación de la fuente de sonido que se necesitan para reproducir un campo de sonido verdaderamente convincente.

Creemos que el escenario sonoro es el futuro de la grabación y reproducción de música. Pero antes de que se produzca una revolución tan radical, será necesario superar un enorme obstáculo: el de convertir de forma cómoda y económica las innumerables horas de grabaciones existentes, independientemente de si son sonido envolvente mono, estéreo o multicanal (5.1, 7.1, etc.). Nadie sabe exactamente cuántas canciones se han grabado, pero según la empresa de metadatos de entretenimiento Gracenote, más de 200 millones Las canciones grabadas están disponibles ahora en el planeta Tierra. Dado que la duración media de una canción es de unos 3 minutos, esto equivale a unos 1.100 años de música.

Eso es un lote de musica. Cualquier intento de popularizar un nuevo formato de audio, por prometedor que sea, está condenado al fracaso a menos que incluya tecnología que nos permita escuchar todo este audio existente con la misma facilidad y comodidad con la que ahora disfrutamos de la música estéreo. en nuestras casas, en la playa, en un tren o en un coche.

Hemos desarrollado tal tecnología. Nuestro sistema, al que llamamos Escenario de sonido 3D, permite la reproducción de música en el escenario de sonido en teléfonos inteligentes, parlantes comunes o inteligentes, auriculares, audífonos, computadoras portátiles, televisores, barras de sonido y en vehículos. No solo puede convertir grabaciones mono y estéreo en un escenario de sonido, sino que también permite que un oyente sin capacitación especial reconfigure un campo de sonido según sus propias preferencias, utilizando una interfaz gráfica de usuario. Por ejemplo, un oyente puede asignar las ubicaciones de cada instrumento y fuente de sonido vocal y ajustar el volumen de cada uno, cambiando el volumen relativo de, digamos, las voces en comparación con el acompañamiento instrumental. El sistema hace esto aprovechando la inteligencia artificial (IA), la realidad virtual y el procesamiento de señales digitales (más sobre esto en breve).

Para recrear de manera convincente el sonido proveniente de, digamos, un cuarteto de cuerdas en dos pequeños parlantes, como los disponibles en un par de auriculares, requiere una gran delicadeza técnica. Para entender cómo se hace esto, comencemos con la forma en que percibimos el sonido.

Cuando el sonido viaja a sus oídos, las características únicas de su cabeza (su forma física, la forma de sus oídos externo e interno, incluso la forma de sus cavidades nasales) cambian el espectro de audio del sonido original. Además, hay una diferencia muy pequeña en el tiempo de llegada de una fuente de sonido a sus dos oídos. A partir de este cambio espectral y la diferencia de tiempo, su cerebro percibe la ubicación de la fuente de sonido. Los cambios espectrales y la diferencia de tiempo se pueden modelar matemáticamente como funciones de transferencia relacionadas con la cabeza (HRTF). Para cada punto en el espacio tridimensional alrededor de su cabeza, hay un par de HRTF, uno para su oído izquierdo y otro para el derecho.

Entonces, dada una pieza de audio, podemos procesar ese audio usando un par de HRTF, uno para el oído derecho y otro para el izquierdo. Para recrear la experiencia original, tendríamos que tener en cuenta la ubicación de las fuentes de sonido en relación con los micrófonos que las grabaron. Si luego reproducimos ese audio procesado, por ejemplo, a través de un par de auriculares, el oyente escuchará el audio con las señales originales y percibirá que el sonido proviene de las direcciones desde las que se grabó originalmente.

Si no tenemos la información de ubicación original, simplemente podemos asignar ubicaciones para las fuentes de sonido individuales y obtener esencialmente la misma experiencia. Es poco probable que el oyente note cambios menores en la ubicación del intérprete; de ​​hecho, es posible que prefiera su propia configuración.

Incluso ahora, después de 150 años de desarrollo, el sonido que escuchamos incluso de un sistema de audio de alta gama es muy inferior al que escuchamos cuando estamos físicamente presentes en una actuación de música en vivo.

Hay muchas aplicaciones comerciales que utilizan HRTFs para crear un sonido espacial para los oyentes que usan auriculares y audífonos. Un ejemplo es el de Apple Espacializar estéreo. Esta tecnología aplica HRTF a la reproducción de audio para que pueda percibir un efecto de sonido espacial, un campo de sonido más profundo que es más realista que el estéreo común. Apple también ofrece una versión de seguimiento de la cabeza que usa sensores en el iPhone y AirPods para rastrear la dirección relativa entre su cabeza, según lo indican los AirPods en sus oídos, y su iPhone. Luego aplica los HRTF asociados con la dirección de su iPhone para generar sonidos espaciales, de modo que perciba que el sonido proviene de su iPhone. Esto no es lo que llamaríamos audio de escenario sonoro, porque los sonidos de los instrumentos aún se mezclan. No puedes percibir que, por ejemplo, el violinista está a la izquierda del viola.

Sin embargo, Apple tiene un producto que intenta proporcionar audio de sonido: Audio espacial de Apple. Es una mejora significativa sobre el estéreo ordinario, pero todavía tiene un par de dificultades, en nuestra opinión. Uno, incorpora dolby atmos, una tecnología de sonido envolvente desarrollada por Dolby Laboratories. Spatial Audio aplica un conjunto de HRTF para crear audio espacial para auriculares y audífonos. Sin embargo, el uso de Dolby Atmos significa que toda la música estereofónica existente tendría que ser remasterizada para esta tecnología. Remasterizar los millones de canciones ya grabadas en mono y estéreo sería básicamente imposible. Otro problema con Spatial Audio es que solo admite auriculares o auriculares, no altavoces, por lo que no tiene ningún beneficio para las personas que tienden a escuchar música en sus hogares y automóviles.

Entonces, ¿cómo ¿Nuestro sistema logra un sonido de sonido realista? Empezamos usando aprendizaje automático software para separar el audio en varias pistas aisladas, cada una de las cuales representa un instrumento o cantante o un grupo de instrumentos o cantantes. Este proceso de separación se llama upmixing. Un productor o incluso un oyente sin formación especial puede volver a combinar las múltiples pistas para recrear y personalizar el campo sonoro deseado.

Considere una canción con un cuarteto compuesto por guitarra, bajo, batería y voz. El oyente puede decidir dónde “ubicar” a los intérpretes y puede ajustar el volumen de cada uno, según sus preferencias personales. preferencia. Usando una pantalla táctil, el oyente puede organizar virtualmente las ubicaciones de las fuentes de sonido y la posición del oyente en el campo de sonido, para lograr una configuración agradable. La interfaz gráfica de usuario muestra una forma que representa el escenario, sobre la cual se superponen iconos que indican las fuentes de sonido: voces, batería, bajo, guitarras, etc. Hay un icono de cabeza en el centro, que indica la posición del oyente. El oyente puede tocar y arrastrar el icono de la cabeza para cambiar el campo de sonido según sus preferencias.

Mover el ícono de la cabeza más cerca de los tambores hace que el sonido de los tambores sea más prominente. Si el oyente mueve el ícono de la cabeza sobre un ícono que representa un instrumento o un cantante, el oyente escuchará a ese intérprete como un solo. El punto es que al permitir que el oyente reconfigure el campo sonoro, 3D Soundstage agrega nuevas dimensiones (si me permite el juego de palabras) al disfrute de la música.

El audio del escenario de sonido convertido puede estar en dos canales, si está destinado a ser escuchado a través de auriculares o un sistema ordinario de canal izquierdo y derecho. O puede ser multicanal, si está destinado a la reproducción en un sistema de múltiples altavoces. En este último caso, dos, cuatro o más altavoces pueden crear un campo sonoro de audio. El número de fuentes de sonido distintas en el campo de sonido recreado puede incluso ser mayor que el número de altavoces.

Este enfoque multicanal no debe confundirse con el ordinario Sonido envolvente 5.1 y 7.1. Éstos suelen tener cinco o siete canales independientes y un altavoz para cada uno, además de un subwoofer (el “.1”). Los múltiples altavoces crean un campo de sonido que es más inmersivo que una configuración estéreo estándar de dos altavoces, pero aún no alcanzan el realismo posible con una verdadera grabación de sonido. Cuando se reproducen a través de una configuración multicanal de este tipo, nuestras grabaciones 3D Soundstage omiten el 5.1, 7.1 o cualquier otro formato de audio especial, incluidos los estándares de compresión de audio multipista.

Una palabra sobre estos estándares. Con el fin de manejar mejor los datos para aplicaciones mejoradas de sonido envolvente y audio inmersivo, recientemente se han desarrollado nuevos estándares. Estos incluyen el estándar de audio MPEG-H 3D para audio espacial inmersivo con codificación de objetos de audio espacial (SAOC). Estos nuevos estándares suceden a varios formatos de audio multicanal y sus correspondientes algoritmos de codificación, como Dolby Digital AC-3 y DTS, que se desarrollaron hace décadas.

Al desarrollar los nuevos estándares, los expertos tuvieron que tener en cuenta muchos requisitos diferentes y características deseadas. La gente quiere interactuar con la música, por ejemplo, alterando los volúmenes relativos de diferentes grupos de instrumentos. Quieren transmitir diferentes tipos de multimedia, a través de diferentes tipos de redes ya través de diferentes configuraciones de altavoces. SAOC fue diseñado con estas características en mente, lo que permite que los archivos de audio se almacenen y transporten de manera eficiente, al tiempo que preserva la posibilidad de que un oyente ajuste la mezcla según su gusto personal.

Sin embargo, para hacerlo, depende de una variedad de técnicas de codificación estandarizadas. Para crear los archivos, SAOC utiliza un codificador. Las entradas al codificador son archivos de datos que contienen pistas de sonido; cada pista es un archivo que representa uno o más instrumentos. El codificador esencialmente comprime los archivos de datos, utilizando técnicas estandarizadas. Durante la reproducción, un decodificador en su sistema de audio decodifica los archivos, que luego se vuelven a convertir en señales de sonido analógicas multicanal mediante convertidores de digital a analógico.

Nuestra tecnología 3D Soundstage pasa por alto esto. Usamos archivos de datos de audio mono, estéreo o multicanal como entrada. Separamos esos archivos o flujos de datos en varias pistas de fuentes de sonido aisladas y luego convertimos esas pistas en una salida de dos canales o multicanal, según las configuraciones preferidas del oyente, para controlar los auriculares o varios altavoces. Utilizamos tecnología de IA para evitar la regrabación, codificación y decodificación multipista.

De hecho, uno Uno de los mayores desafíos técnicos que enfrentamos al crear el sistema 3D Soundstage fue escribir ese software de aprendizaje automático que separa (o mezcla) una grabación mono, estéreo o multicanal convencional en varias pistas aisladas en tiempo real. El software se ejecuta en un red neuronal. Desarrollamos este enfoque para la separación de música en 2012 y lo describimos en las patentes que se otorgaron en 2022 y 2015 (los números de patente de EE. UU. son 11.240.621 B2 y 9.131.305 B2).

El oyente puede decidir dónde “ubicar” a los intérpretes y puede ajustar el volumen de cada uno, según sus preferencias personales.

Una sesión típica tiene dos componentes: entrenamiento y upmixing. En la sesión de entrenamiento, una gran colección de canciones mixtas, junto con su instrumento aislado y pistas vocales, se utilizan como entrada y salida de destino, respectivamente, para la red neuronal. La capacitación utiliza el aprendizaje automático para optimizar los parámetros de la red neuronal de modo que la salida de la red neuronal, la colección de pistas individuales de instrumentos aislados y datos vocales, coincida con la salida objetivo.

Una red neuronal está modelada muy vagamente en el cerebro. Tiene una capa de entrada de nodos, que representan neuronas biológicas, y luego muchas capas intermedias, llamadas “capas ocultas”. Finalmente, después de las capas ocultas hay una capa de salida, donde emergen los resultados finales. En nuestro sistema, los datos que se envían a los nodos de entrada son los datos de una pista de audio mixta. A medida que estos datos avanzan a través de capas de nodos ocultos, cada nodo realiza cálculos que producen una suma de valores ponderados. Luego se realiza una operación matemática no lineal sobre esta suma. Este cálculo determina si los datos de audio de ese nodo se transmiten a los nodos de la siguiente capa y cómo.

Hay docenas de estas capas. A medida que los datos de audio pasan de una capa a otra, los instrumentos individuales se separan gradualmente unos de otros. Al final, en la capa de salida, cada pista de audio separada se emite en un nodo de la capa de salida.

Esa es la idea, de todos modos. Mientras se entrena la red neuronal, la salida puede estar fuera de lugar. Puede que no sea una pista instrumental aislada; puede contener elementos de audio de dos instrumentos, por ejemplo. En ese caso, los pesos individuales en el esquema de ponderación utilizado para determinar cómo pasan los datos de un nodo oculto a otro nodo oculto se modifican y el entrenamiento se vuelve a ejecutar. Este entrenamiento y ajustes iterativos continúan hasta que la salida coincide, más o menos perfectamente, con la salida objetivo.

Al igual que con cualquier conjunto de datos de entrenamiento para el aprendizaje automático, cuanto mayor sea la cantidad de muestras de entrenamiento disponibles, más efectivo será el entrenamiento en última instancia. En nuestro caso, necesitábamos decenas de miles de canciones y sus pistas instrumentales separadas para el entrenamiento; por lo tanto, los conjuntos de datos de música de entrenamiento totales fueron de miles de horas.

Después de entrenar la red neuronal, al recibir una canción con sonidos mezclados como entrada, el sistema emite las múltiples pistas separadas al ejecutarlas a través de la red neuronal usando el sistema establecido durante el entrenamiento.

Después de separar un grabando en sus pistas componentes, el siguiente paso es remezclarlos en una grabación de sonido. Esto se logra mediante un procesador de señal de escenario sonoro. Este procesador de escenario sonoro realiza una función computacional compleja para generar las señales de salida que impulsan los altavoces y producen el audio del escenario sonoro. Las entradas al generador incluyen las pistas aisladas, las ubicaciones físicas de los altavoces y las ubicaciones deseadas del oyente y las fuentes de sonido en el campo de sonido recreado. Las salidas del procesador de sonido son señales multipista, una para cada canal, para controlar los múltiples altavoces.

El campo de sonido puede estar en un espacio físico, si es generado por parlantes, o en un espacio virtual, si es generado por audífonos o audífonos. La función realizada dentro del procesador de escenario sonoro se basa en la acústica computacional y la psicoacústica, y tiene en cuenta la propagación de ondas de sonido y la interferencia en el campo de sonido deseado y los HRTF para el oyente y el campo de sonido deseado.

Por ejemplo, si el oyente va a utilizar auriculares, el generador selecciona un conjunto de HRTF en función de la configuración de las ubicaciones de fuentes de sonido deseadas y, a continuación, utiliza las HRTF seleccionadas para filtrar las pistas de fuentes de sonido aisladas. Finalmente, el procesador de escenario de sonido combina todas las salidas HRTF para generar las pistas izquierda y derecha para auriculares. Si la música se va a reproducir en altavoces, se necesitan al menos dos, pero cuantos más altavoces, mejor será el campo sonoro. El número de fuentes de sonido en el campo de sonido recreado puede ser mayor o menor que el número de altavoces.

Lanzamos nuestra primera aplicación Soundstage, para iPhone, en 2020. Permite a los oyentes configurar, escuchar y guardar música SoundStage en tiempo real; el procesamiento no provoca ningún retraso perceptible. La aplicación, llamada
Música 3Dconvierte música estéreo de la biblioteca de música personal de un oyente, la nube o incluso la transmisión de música a escenario sonoro en tiempo real. (Para karaoke, la aplicación puede eliminar voces o emitir cualquier instrumento aislado).

A principios de este año, abrimos un portal web,
3dsoundstage.com, que proporciona todas las funciones de la aplicación 3D Musica en la nube más una interfaz de programación de aplicaciones (API) que pone las funciones a disposición de los proveedores de música en tiempo real e incluso para los usuarios de cualquier navegador web popular. Cualquiera puede ahora escuchar música en audio de escenario en prácticamente cualquier dispositivo.

Cuando el sonido viaja a sus oídos, las características únicas de su cabeza (su forma física, la forma de sus oídos externo e interno, incluso la forma de sus cavidades nasales) cambian el espectro de audio del sonido original.

También desarrollamos versiones separadas del software 3D Soundstage para vehículos y sistemas y dispositivos de audio domésticos para recrear un campo de sonido 3D utilizando dos, cuatro o más altavoces. Más allá de la reproducción de música, tenemos grandes esperanzas puestas en esta tecnología en videoconferencia. Muchos de nosotros hemos tenido la fatigosa experiencia de asistir a videoconferencias en las que teníamos problemas para escuchar claramente a otros participantes o estábamos confundidos acerca de quién estaba hablando. Con Soundstage, el audio se puede configurar para que cada persona se escuche desde una ubicación distinta en una sala virtual. O simplemente se puede asignar la “ubicación” según la posición de la persona en la cuadrícula típica de Zoom y otras aplicaciones de videoconferencia. Para algunos, al menos, las videoconferencias serán menos fatigosas y el habla será más inteligible.

como audio movido de mono a estéreo, y de estéreo a sonido envolvente y espacial, ahora está comenzando a pasar al escenario sonoro. En esas épocas anteriores, los audiófilos evaluaban un sistema de sonido por su fidelidad, basándose en parámetros tales como ancho de banda,
distorsión armónica, resolución de datos, tiempo de respuesta, compresión de datos sin pérdida o con pérdida y otros factores relacionados con la señal. Ahora, el escenario sonoro se puede agregar como otra dimensión a la fidelidad del sonido y, nos atrevemos a decir, la más fundamental. Para los oídos humanos, el impacto del escenario sonoro, con sus señales espaciales y su inmediatez apasionante, es mucho más significativo que las mejoras incrementales en la fidelidad. Esta característica extraordinaria ofrece capacidades que antes estaban más allá de la experiencia incluso de los audiófilos más acaudalados.

La tecnología ha impulsado revoluciones anteriores en la industria del audio y ahora está lanzando otra. La inteligencia artificial, la realidad virtual y el procesamiento de señales digitales están recurriendo a la psicoacústica para brindarles a los entusiastas del audio capacidades que nunca antes habían tenido. Al mismo tiempo, estas tecnologías están brindando a las compañías discográficas y a los artistas nuevas herramientas que darán nueva vida a las grabaciones antiguas y abrirán nuevas vías para la creatividad. Por fin, se ha logrado el objetivo centenario de recrear de manera convincente los sonidos de la sala de conciertos.

De los artículos de su sitio

Artículos relacionados en la Web

Fuente del artículo

Deja un comentario