El trabajo expuesto en la conferencia internacional AVAR 2022 fue desarrollado por Pedro Izquierdo junto a los académicos Rodrigo Cádiz y Carlos Sing Long, ambos de la UC. Las herramientas de modelamiento matemático permitieron dar forma a una técnica que no sólo podría mejorar la experiencia de quienes asisten a un concierto en vivo mediante la generación de “ilusiones sonoras”, sino que también permitiría robustecer el uso de aplicaciones como Zoom. ¿El siguiente paso? Diseñar una versión más compleja mediante la incorporación de machine learning e inteligencia artificial.
Pedro Izquierdo (27 años) se fascinó con el mundo de la música cuando era sólo un niño: “Desde chico que toco piano”. Ya en la Universidad Católica tocó contrabajo en la orquesta de la casa de estudios y también obtuvo un certificado académico en música electroacústica, el cual terminaría guiando su rumbo hacia la investigación que él mismo presentó esta semana en la Conferencia de Audio Para Realidad Virtual y Aumentada 2022 (AVAR). El evento, organizado por la Audio Engineering Society, tuvo como sede la localidad de Redmond, Washington (Estados Unidos).
“La realidad virtual y aumentada es todo un mundo que ahora está bien de moda. Meta -empresa madre de Facebook- está desarrollando fuertemente su metaverso. De hecho, Redmond se ubica cerca de Seattle, donde se encuentran los laboratorios de realidad virtual de Microsoft y de Meta”, cuenta Izquierdo. El investigador -que se tituló este año del Magíster en Ciencias de la Ingeniería- agrega que dentro de ese campo hay varios subtemas que se están estudiando: “Uno tiene que ver con el uso de audífonos. Por ejemplo, había un viral que circulaba por WhatsApp donde un tipo te cortaba el pelo. Te ponías los audífonos y lo escuchabas mientras hacía su labor y te hablaba desde atrás o adelante. Tal como pudo experimentar cada persona que se colocó un audífono para escuchar ese viral, ese efecto es un fenómeno que de cierta manera hoy está resuelto”.
El problema que abordaron Izquierdo, Rodrigo Cádiz-compositor musical y profesor del Departamento de Ingeniería Eléctrica UC- y Carlos Sing Long –académico del Instituto de Ingeniería Matemática y Computacional (IMC)- sigue una ruta distinta. “Lo que intentamos resolver es un escenario en el que no tienes audífonos, sino que parlantes. Hay varios de ellos y no sólo una persona a la que quieres producirle una ilusión sonora, sino que ojalá a una sala llena de gente con parlantes instalados en las murallas”, dice Izquierdo. La idea, añade, es determinar “qué enviar por cada parlante y cómo hacerlo para producir esta ilusión sonora. Entran en juego cosas de física, de propagación de onda y también elementos de percepción, como qué umbrales tienen nuestros oídos y nuestra cabeza, cuáles son sus tolerancias para ser engañados por así decirlo”.
El factor electroacústico
Para llegar a la investigación que hoy realiza Izquierdo junto a los académicos UC, la música electroacústica fue clave. “Es una especie de rama de la música docta que es bien de nicho. Es como la madre de la música electrónica que conocemos hoy, pero más experimental y en la cual se trata de sintetizar sonidos de una manera digital o análoga de una manera no convencional, sin tocar un instrumento, sino que procesando una señal acústica y trabajándola en un computador”, explica Izquierdo.
Pedro Izquierdo.
Este graduado UC, quien hoy forma parte del Instituto Milenio en Ingeniería e Inteligencia Artificial para la Salud (iHEALTH), agrega que esa labor se aborda actualmente como si se tratase de una fórmula matemática: “Le puedes realizar operaciones y así conseguir distintos sonidos. Es otro lenguaje, pero es bien interesante". En ese mundo de la música electroacústica, comenta Izquierdo, un parámetro clave es la ubicación del sonido: “Tú estás escuchando la obra musical, que tiene unos sonidos bien raros, y el sonido viaja en el espacio, de adelante hacia atrás, de derecha a izquierda. Las maneras de conseguir eso son bien rudimentarias; tienes un parlante a la derecha y a la izquierda y prendes un poco más el de la derecha y después le das más al de la izquierda. Haces un paneo y eso genera una sensación de que el sonido viaja, pero en realidad no está bien trabajado”.
Ese método, indica este ingeniero matemático, genera una “sensación de espacialidad que no llega a convencer de que algo está sucediendo en un punto específico”. Hace unos 30 años, esa disyuntiva hizo que los expertos en este campo empezaran a preguntarse cómo lograr que ese efecto fuera más real. El profesor Rodrigo Cádiz fue quien terminaría invitando a Izquierdo a iniciar la investigación que se presenta en Redmond con el título “Towards Maximizing a Perceptual Sweet Spot in a Reverberating Room” y que también aparece publicada bajo la modalidad early access en el journal IEEE/ACM Transactions on Audio, Speech, and Language Processing.
“Yo había tomado un curso de música electroacústica con el profesor Cádiz y él me comentó que había gente trabajando en hacer más real la espacialización. Me dijo que lo estudiáramos juntos y, además en ese entonces yo estaba trabajando con Carlos Sing Long, quien fue mi profesor guía en el Magíster. Los tres atacamos el problema”, señala Izquierdo.
Sing Long, doctor en Ingeniería Computacional y Matemática, explica que el objetivo de esta colaboración fue tratar de establecer si las herramientas de modelamiento matemático permitían dar respuesta a algunas de las inquietudes que surgían desde la música sintética. “A través de las conversaciones que tuvimos con Pedro y Rodrigo nos dimos cuenta de que muchas de las herramientas estándar para abordar este problema de espacialización se basaban siempre en métricas de carácter físico. Lo que la persona trata de hacer es, por ejemplo, generar con parlantes una misma onda de audio de manera exacta. Pero nosotros nos preguntamos si, dado que lo importante es que la persona sienta que está escuchando lo mismo, por qué no usar criterios no inspirados en la física, sino que en la percepción de audio”, indica.
El nuevo método podría ayudar a mejorar la experiencia de un concierto en vivo.
El académico agrega que su contribución al trabajo se enfocó, precisamente, en cómo usar modelos de percepción humana para tratar de reproducir la ilusión de audio espacial, usando una herramienta matemática implementada computacionalmente. Según indica Sing Long, lo novedoso de esta investigación radica precisamente en intentar resolver el problema de la espacialización incorporando modelos de percepción auditiva. “Existen algunos métodos que tratan de incorporar estos efectos perceptuales, pero nosotros los integramos desde un comienzo, desde la base, para tratar de encontrar la mejor señal de audio que tienes que darle a los parlantes para que realmente reproduzcas la percepción de estar en un concierto”, explica el académico del IMC.
De conciertos a reuniones vía Zoom
Entre las aplicaciones del modelo y el algoritmo desarrollados por Izquierdo, Cádiz y Sing Long hay algunas que están ligadas naturalmente al ámbito de la música y a los espectadores que se reúnen en un auditorio. “Hay una orquesta sonando y, por ejemplo, quiero reforzar su sonido cancelando los ecos de la sala. Así puedo complementar el sonido de los músicos con este tipo de técnica o, derechamente, intentar reproducir algo más semejante a la música electroacústica donde no hay una orquesta, sino que sonidos digitales que generan un panorama sonoro en la cabeza de la persona. Todo eso está relacionado con el mundo del arte”, indica Izquierdo.
Pero además de la música en vivo, este tipo de métodos tiene potencial en otras áreas. “Por ejemplo, hay un auto de alta gama que incorpora ‘wave field synthesis’, que es una técnica para reproducir sonido espacial. En su interior se debe escuchar una orquesta tal como le gustaría a un aficionado a la música clásica”, indica Izquierdo. Eso no es todo, ya que una variante de este modelo podría mejorar la experiencia de una actividad tan cotidiana actualmente como las reuniones vía video: “En una conexión por Zoom, cada vez que alguien interviene podrías escuchar a esa persona como si estuviera sentado a tu izquierda, a la derecha o en un extremo de un gran mesón”.
Carlos Sing Long comenta que existe otro potencial uso que no tuvieron tiempo de desarrollar y que consiste en que un grupo de parlantes se coordinen para generar sonido en una zona de un salón y en otra producir silencio. De esta manera, en un rincón de una oficina se podría desarrollar una conferencia sin perturbar el trabajo de las demás personas. “Esta idea de generar una ilusión de audio espacial no necesariamente quiere decir que siempre vas a emular la percepción de la orquesta, sino que puedes focalizar para que ciertas personas escuchen algo y otras no”.
Carlos Sing Long.
El siguiente paso de este trabajo, comenta el académico del IMC, es pasar a una etapa de validación. “Hasta este momento, nos hemos apoyado en simulaciones computacionales que son prometedoras y sugieren que el modelo debería funcionar bien. Pero lo que queremos hacer ahora es pasar a una fase experimental en la cual el trabajo de Rodrigo Cádiz es sumamente importante. Es decir, queremos analizar si el modelo funciona al tener un sistema de parlantes e intentar hacer que el público perciba una orquesta de una manera determinada. Rodrigo tiene en su laboratorio arreglos de parlantes para analizar esta ilusión auditiva”, indica.
Al respecto, Pedro Izquierdo agrega que por ahora el método desarrollado junto con los académicos funciona en casos simples, donde se trata de un tono puro. “Pero en la realidad uno no escucha sólo un tono, sino que muchos provenientes de distintas fuentes. Es, por así decirlo, un escenario más rico y complejo. El algoritmo que hoy tenemos demoraría mucho en resolver ese tipo de instancias, por lo que estamos trabajando en cómo enfrentarlas usando técnicas de machine learning e inteligencia artificial”, afirma.