Modelos de Expresión Musical Basados en Análisis y Tratamiento de Señal de Audio
Juan Reyes
Departamento de Artes Universidad de Los Andes
Santafé de Bogotá- Colombia
jreyes@uniandes.edu.co


Contenido:

Introducción, Análisis de Señal Musical, Aplicaciones con Sentido Musical basadas en Análisis de Fourier, Modelos Espectrales, Parámetros disponibles en Señal Digital, Variables en Percepción y Expresión Musical, Síntesis de Sonido con Expresión Musical, Experimentos con Modelos de Expresión Musical y Señal de Audio, Resultados, Referencias

Introducción

Este artículo es una descripción sobre el trabajo realizado recientemente en matéria de modelos de expresión musical desde un punto de vista técnico en referéncia al tratamiento de señal de audio digital aproximándose a un punto desde la percepción. Partimos del supuesto en que toda señal percibida por el oyente es interpretada como música cuando adquiere características de expresividad. Estos cambios hacen parte de diferencias en envolventes de amplitud y frecuéncia inherentes a la señal de audio los cuales traspasan llegando a la mente humana por medio del sistema nervioso traduciéndose en emociones de carácter cognoscitivo. Finalmente en este articulo, se expresan algunos de los resultados obtenidos en la realización de algunas composiciones realizadas por este autor utilizando esta tecnología además de esbozar los objetivos que se persiguen con estas herramientas en un futuro cercano.

1. Análisis de Señal Musical

Aunque en circunstancias normales el oído humano trata de discernir entre diferentes matices, desarrollos tímbricos y una estructura formal dentro de una pieza musical que esta siendo escuchada, la realidad es que voluntariamente o in voluntariamente cada persona esta realizando a modo instantáneo un análisis minucioso del momento musical. Este procedimiento clasificado por Von Helmholtz un siglo atrás fue publicado como las Sensaciones del Tono Musical [1]. Lo importante radica en que lo que escuchamos de una pieza musical puede percibirse desde dos aproximaciones o dominios diferentes. Desde el dominio del tiempo y desde el dominio de los armónicos. Por muchos años la teoría musical se enfocó hacia el dominio del tiempo desarrollando la percepción del tiempo como patrones de ritmo o repeticiones del sonido en función del tiempo o tempo y en relación con alturas que dependían de un eje tonal o armónico basado en el fundamental de un instrumento. El dominio de los armónicos estaba limitado por la orquestación y manipulación tímbrica de los sonidos. Años después, con el reconocimiento del sonido como una función periódica, Fourier sugiere que este sonido es el resultado de la suma de otros elementos también de carácter sinusoidal pero más elementales. Esto permite la posibilidad de descomponer un sonido en sus componentes armónicas o espectrales partiendo de una forma de onda o envolvente de amplitud dependiente del tiempo. Con herramientas como las transformadas (i.e Fourier, Z, Coseno), podemos trabajar en el análisis de un sonido desde el dominio del tiempo o desde el dominio del espectro y de los armónicos [2]. En el caso del análisis de Fourier, este significa para los músicos, lo que el prisma es para los pintores, o sea una radiografía del sonido. Esto implica que el problema de composición ya no depende de acordes o contrapunto melódico sino también del reto tímbrico o espectral. El espectro de un sonido es determinado gracias a software o aplicaciones del análisis tales como la Transformada Rápida de Fourier y derivaciones. Los objetivos musicales resultantes de este análisis no solo se limitan a niveles de energía o envolventes de los armónicos sino también a otros parámetros que se pueden asumir como musicales.

2. Aplicaciones con Sentido Musical basadas en Análisis de Fourier

Dada la importancia de la información musical relevante obtenida en la transformada de Fourier, en los años ochentas se implantó una herramienta que había sido útil en la telefonía y que en este caso ofrecía un alta grado de manipulación de parte del compositor [3]. Esta se conoce como el vocoder de fase. La idea comienza con un análisis de espectro continuando con la resíntesis de un sonido con anchos de banda variables o elongaciones y compresiones en el dominio del tiempo. En este proceso no solo se manipulan las intensidades de los componentes armónicos de la fuente sonora sino también su envolvente en el dominio del tiempo. El procedimiento depende de un banco de filtros pasabanda con anchos de banda que se pueden calibrar por el operador según las expectativas de la información deseada. Existe una aplicación del vocoder de fase desarrollada (circa 1990) por Carlota Mojica y Camilo Rueda en La Universidad de los Andes [4]. Las limitaciones en estas aplicaciones estaban dadas por la potencia en la maquina, razón por la cuál se utilizaban únicamente para el análisis y manipulación de un tono musical de pocos segundos. Adicional mente en el caso de sonidos inarmónicos, las frecuencias cambiantes en intervalos de tiempo cortos eran difíciles de obtener ya que están predeterminadas por el ancho de banda del banco de filtros pasa bandas utilizado.

En años recientes nuevas metodologías direccionadas a la descomposición espectral de un sonido o una frase hablada o musical han sido desarrolladas. Motivados por el alto nivel computacional de la transformada de Fourier y las imperfecciones ya comentadas, McAuley y Quartiery en EE.UU. desarrollaron un procedimiento en el cuál los armónicos de un sonido son extraídos mediante un método de guías o canaletas que nacen y mueren dentro de un sinusoide predeterminado por un cuadro que es función del periodo del sonido analizado [5]. En este procedimiento se caracterizan las amplitudes, frecuencias y ángulos de fase de los componentes sinusoidales dentro del cuadro especificado. La resolución está determinada en señal discreta, por la cantidad de muestras dentro del cuadro y por la STFT (transformada a tiempo corto de Fourier). En este momento se deducen picos asociados con la función de magnitud de cada espectro[6]. Cada uno de estos picos es el centro de banda de una pista visualizada en forma de canaleta en la cuál se aproximaran amplitudes de frecuencias cercanas a la amplitud de la frecuencia dentro de cada pico. Es así como el análisis "extrae" información espectral en referencia a los ángulos de fase, a las frecuencias y a las amplitudes de la sumatoria de los componentes sinusoidales de un sonido en cuestión. Sucesivamente se utilizan ventanas para visualizar y redondear los componentes espectrales tales como la ventana Rectangular, Hamming, Hanning y Blackman- Harris. La ventaja principal de este método es el poder analizar sonidos inarmónicos o sonidos que cambian con periodos relativamente cortos, debido a que en lugar de buscar la magnitud y la derivada de fase para el conjunto de frecuencias aisladas por el filtro pasa bandas del vocoder de fase, en este método la STFT busca picos de amplitud en una frecuencia dada. Consecuentemente los picos de mayor amplitud son esperados y perseguidos cuadro a cuadro hasta el desvanecimiento del sonido o -¥ dB. de magnitud..

3- Modelos Espectrales

Al generar un sonido con sentido musical por medios digitales ya sea en software o por un circuito integrado, es importante el poder manipularlo con controladores que produzcan una rica gama de fuentes sonoras y transformaciones. En los modelos espectrales se enmarca un sonido al nivel perceptivo descartando cualquier información que en forma natural también descarta el oído humano[6]. Los modelos espectrales son producto del análisis de sonido y síntesis de sonido pero además de los parámetros resultantes de la STFT, es necesario caracterizar las no linealidades existentes en muchos sonidos. Esto significa que en el momento de excitación de un sonido existe un periodo de frecuencias no determinadas las cuales se perciben como ruido sucedidas por el desarrollo armónico normal. Siendo así, los modelos de sonidos contienen la suma de lo armónicos más el componente o residuo de ruido implicando otro tipo de metodología para "extraer" este componente residual. En sonidos periódicos el ruido es producto de energía liberada por el mecanismo de excitación del sonido (i.e. martillos del piano, lengüetas, labios, etc.). Por lo tanto el tipo de análisis utilizado en modelos espectrales define dos partes esenciales. Una parte determinística la cuál es definida por cualquier sonido que no se perciba como ruido y una parte no lineal la cuál puede ser determinada en la trayectoria de una señal estocástica. Un sonido estocástico o ruido está descrito por una densidad de probabilidades de la potencia o magnitud espectral la cuál genera una señal de potencia en función de la frecuencia. En este caso no es necesario retener las cualidades de ángulo de fase instantáneo ni la magnitud generada por la transformada de Fourier. En el análisis de señal estocástica se deduce la cantidad de ruido blanco filtrado por los coeficientes estocásticos que definen su contenido armónico.

En la síntesis del modelo espectral se utiliza el método conocido como síntesis aditiva por la suma de las energías de cada uno de los armónicos o picos encontrados en el análisis adicionándolos a los niveles de energía o a la envolvente encontrada del componente residual. Todas estas opciones se encuentran en un paquete de software conocido como SMS (Spectral Modeling Synthesis) como fruto de la combinación de las metodología que ya se han expresado[7]. Ya que el sonido es parametizado, SMS ofrece varios parámetros de síntesis los cuales permiten que un sonido adquiera un carácter más musical. Estos incluyen funciones en el dominio del tiempo las cuales pueden transformar el contenido espectral en la resíntesis o que también transforman el ritmo o envolvente de amplitud del sonido. Ya que el análisis nos indica cambios de frecuencias, modulaciones o vibrtatos, este juego de herramientas en SMS nos ayuda a resaltarlas o enmascararlas como también a modificarlas normalmente en referencia al tiempo. Desde un punto de vista estético esto significa manipulaciones al gesto musical [8].

4. Parámetros disponibles en Señal Digital

Los parámetros que se persiguen desde un punto de vista musical están relacionados con las componentes de amplitudes, frecuencias, ángulos de fase y sonido residual. El reto en este caso depende de cuales de estas combinaciones se perciben como gestos de expresión musical. A simple vista podemos decir que cambios rápidos en las frecuencias implican vibrato. Cambios lentos en la frecuencia implican modulación o cambio de tonalidad. Cambios rápidos en la amplitud implican trémolo y cambios lentos de amplitud implican cambios en dinámicas musicales tales como pianissimo o fortísimo. Sin embargo y dependiendo de las características tímbricas del sonido cambios en el espectro también implican cambios en la dinámica. Los gestos de expresión musical dependen de la interpretación, de la percepción y de la definición de los mismos. En la música del barroca se podían definir mas o menos una docena de gestos [9]. En la música del romanticismo estos casi se triplican y en la música contemporánea no es erróneo citar gestos definidos por cada compositor. Nuestro enfoque en este caso esta premeditado por el hecho de que al percibir una grabación en medios magnetofónicos gran parte de esta expresividad es transmitida por la señal de audio de la grabación de los gestos del intérprete. Consideramos que de esta manera el gesto musical del intérprete está determinado por la intención del interprete, la cuál depende de movimientos musculares y de respiración[10]. Por ejemplo un sF o esforzando implica mayor tensión muscular y cambios en la presión respiratoria desde el punto de vista del interprete. Desde el punto de vista de señal podríamos decir que existe una combinación de cambios en la intensidad del sonido, un mayor componente residual porque la excitación posee mayor energía y un desarrollo espectral o cambios en los armónicos a medida que se desarrolla sonido que puede concluir con cambios en la frecuencia del fundamental percibidos como vibrato[11]. En algunos casos el gesto está dentro de una sucesión de notas o en una frase musical por lo que es necesario análisis de más de varios mili segundos hasta varios segundos. Experimentos en este respecto han sido realizados por este autor y alumnos de tesis en el MOX -Computación avanzada en Ingeniería en La Universidad de Los Andes. Los resultados se han utilizado en composiciones de música por computador electroacústica tales como Sygfrydo y Choi-Hung también compuestas por este autor [12].




(TABLA-1)

5. Variables en Percepción y Expresión Musical

Los puntos de vista que se han determinado para discriminar el gesto musical dependen de las siguientes variables relacionadas a la psicología actual. Cabe resaltar que todas ellas individual mente o en conjunto afectan la interpretación o percepción del gesto musical. Existen variables en referencia a lo cognoscitivo, lo afectivo y a la ejecución o comportamiento psycomotor. En una canción existen la percepción física del sonido atraves de los oídos, una creencia cognoscitiva o reconocimiento al simple hecho de que se está escuchando una canción y finalmente la emoción que se crea dependiendo si la experiencia es poco o muy placentera [13]. Para modelaje de expresión hemos tenido en cuenta las siguientes variables en función de lo afectivo: simples estados placenteros o no placenteros en respuesta a la entrada sensorial (i.e. la música esta muy duro o en su punto). Sentimientos de actividad como entusiasmo o aversión. Sentimientos de moral o estéticos, religiosos o sentimientos y actitudes basadas en experiencias anteriores en la educación o fundamentos culturales. También cuentan emociones como el temor, furia, alegría y temperamentos como optimismo, viveza, ansiedad o dolor. Este tipo de emociones que envuelven percepción han sido siempre basadas en la memoria y siempre incluyen un factor de contexto ya sea en presente o pasado. En el sentido estético consideramos importante el hecho en que las emociones generan tensión la cuál debe ser seguida por la culminación de las expectativas sobre un momento musical y por lo tanto la resolución de la tensión. También es importante tener en cuenta factores como actitud o predisposición a la música y géneros musicales en particular, interés gustos y preferencias[14].




6. Síntesis de Sonido con Expresión Musical

El objetivo en este caso es utilizar herramientas para síntesis de sonido tales como sintetizadores de software similares al Music V [15] con métodos populares como frecuencia y amplitud moduladas, síntesis aditiva y substractiva, síntesis granular y síntesis por formantes además de síntesis por modelos espectrales y modelos físicos. En la mayoría de estos casos el sonido es controlado por vectores que afectan la forma de onda y la excitación. En el caso de cambios en la intensidad de un sonido se varia la envolvente de amplitud en el tiempo. En el caso de cambios en el dominio del espectro se varían la posición y la cantidad de polos y ceros en filtros digitales correspondientes al paso de la señal de audio en la generación del sonido. Por esta razón se ha realizado una tabla de equivalencias o traducción del gesto musical a señal de audio e igualmente para detectar parámetros de interpretación o expresión musical en una frase musical (ver tabla -1). En un comienzo el proceso de modelaje de expresión intenta extraer de una señal de audio musical parámetros que hacen referencia a la expresión y al gesto musical. Una vez obtenidos y vector izados se continua mezclándolos con valores dependientes del tipo de síntesis y al archivo de partitura, logrando una interpretación digital con expresión musical[8]. Esto por ejemplo, permite combinar gestos de patrones musicales de tambores del litoral Caribe Colombiano con Modelos Físicos de instrumentos como la flaut a (ver figura-1). Con censores de movimiento, tensión muscular y respiración es posible obtener señales de expresividad musical a partir de una interpretación en vivo[16].

7. Experimentos con Modelos de Expresión Musical y Señal de Audio

La mayoría de estos experimentos que se han llevado a cabo por este autor en el MOX, Computación Avanzada en Ingeniería en La Universidad de Los Andes. Para esto se han utilizado computadores Indy Silicon Graphics y un DEC Alpha ambos corriendo en sistemas operacionales Unix. En gran parte se ha utilizado el lenguaje de programación Lisp por la capacidad de extensión del mismo y por ambientes de programación específicos a tratamiento de señal de audio y a edición de música. En particular hemos trabajado con el Common Lisp Music [17]. y el Common Music [18]. Sin embargo SMS existe en el lenguaje C disponible en los shells de las maquinas Indy. Para SMS se elaboro una interfaz gráfica en TCL/tk [19] para facilitar el manejo de varios parámetros al momento del análisis. El modelo físico de la flauta fue implantado en un principio en el ambiente MatLab para luego ser implementado en C++ en las maquinas Indy[20]. Actualmente se está desarrollando el modelo físico de la guitarra en las mismas arquitecturas. Ninguno de los paquetes aquí mencionados funciona en tiempo real por lo que se depende del procesamiento en diferido o render para obtener resultados. Sin embargo en el caso de los modelos físicos esperamos obtener procesamiento con capacidad de tiempo real o de interpretación en vivo. Debido a la investigación de modelos físicos y modelos espectrales hemos limitado los parámetros de expresividad a instrumentos como la flauta, el violonchelo y últimamente a la guitarra y algunos tambores. En general se han caracterizado como efectos en que afectan directamente la envolvente de amplitud del modelo y en efectos que afectan el timbre o espectro del sonido (ver tabla-1). Desde el punto de vista de interpretación se han probado diferentes formas de ejecución o estilos que normalmente tienen que ver con la duración de sonido. En este aspecto también se han utilizado parámetros de espacialización del sonido.

Desde la composición, podemos hablar de variables globales o que cambian al transcurrir la pieza musical. En sentido local se habla de variables que afectan el sonido y como consecuencia generan el gesto musical. Las variables globales que se han utilizado incluyen tempo o unidad de referencia temporal, tipo de métrica o notas por compás, carácter de la composición (i.e. andante , presto, etc.), tonalidad y duración total. También hemos experimentado con signos para repetición y cadenzas. Las variables locales incluyen articulaciones, dinámicas o intensidades de cada nota y diferentes tipos de trémolos y vibratos. En las variables locales la envolvente de amplitud en el tiempo puede ser modificada por funciones que operan en referencia con el tipo de articulación. Filtros digitales son utilizados para la parte del sostenimiento y decaimiento del tono. Para cambios de frecuencia es práctico utilizar filtros que actúan sobre la frecuencia de muestreo como es el caso del vibrato o el trino en la flauta. Sin embargo en variables globales cambios en la frecuencia de muestreo sobre una función de tiempo generan glissandos y transposiciones.. Los cambios en variables locales se especifican a nivel de la frecuencia de muestreo mientras que en las globales se especifican en periodos de minutos y segundos.

8. Resultados

Se ha encontrado que el análisis de frases musicales y en varios compases revela muchos de los parámetros aquí expresados los cuales son muy útiles a nivel composicional. Debido a que el proceso de composición en computador es un proceso de asistencia al compositor los resultados obtenidos en análisis de señal permiten un desarrollo de la pieza musical desde el boceto hasta su culminación sin perdida de generaciones ni deteriora miento del material. De esta forma se puede experimentar con combinaciones convencionales y no convencionales de elementos de expresión musical. Es el caso de los trinos o vibratos que se producen en instrumentos temperados como el piano y su equivalente en vientos como la flauta o cuerdas como el violonchelo. Sin embargo mucho de este trabajo depende del criterio del compositor y de un conocimiento en el significado y manejo de procesamiento de señal musical. Por esto el reconocimiento de variables con significado musical en una señal de audio se ha realizado en forma manual. Es posible realizar este reconocimiento en forma automática con heurísticas basadas en razonamiento por casos y a nivel de interpretación [21]. En términos de síntesis y composición digital se ha encontrado una interacción de gran potencial entre el sonido y el gesto musical. Esto implica un nuevo estilo de composición y subproductos además de señalar una nueva estética. Desde el punto de vista de percepción hemos experimentado con varias interpretaciones de un mismo gesto encontrando diferencias substanciales para caracterizar cada evento. Consideramos que este tipo de herramientas son útiles no solo para la composición o interpretación de música sino también son útiles desde un punto de vista musicólogico o antropológico además de investigación en filtros que optimizen el tratamiento de gestos musicales con mayor eficiencia.

9.Trabajo a ercano y corto plazo

El estudio de expresión musical y su representación por medio de señales de audio es un hecho todavía en ciernes. La composición de música con estas tecnologías solo hasta ahora comienza a dejar su estado de experimentabilidad y por lo tanto se quiere continuar en la investigación sobre reconocimiento y análisis de expresión musical desde el enfoque de señal de audio como también con controladores y dispositivos de grabación del gesto musical en tiempo real. También es necesario desarrollar experimentos amparados por las ciencias cognoscitivas y con diferentes sujetos para caracterizar las diferentes definiciones e interpretaciones de un gesto musical. Esperamos desarrollar herramientas de software que ayude al modelaje de expresión al mismo tiempo que transductores para grabar parámetros del gesto musical en vivo. A un corto plazo pretendemos desarrollar una interfaz para traducir parámetros de expresividad por medio de archivos o censores en tiempo real a la flauta de guías de onda ya implementada además de experimentos con diferentes derivaciones de este modelo. En este momento se ha comenzado la investigación en diferentes aproximaciones a modelos físicos de la guitarra pretendiendo beneficiarnos de interfaces popularmente conocidas dentro de nuestra cultura. Paralelamente queremos continuar con investigación en espacios acústicos virtuales y su sincronización con imagen visual comenzado hace mas de un año por nuestro grupo de investigaciones en informática musical.

Referencias

[1] Von Helmholtz, H., 1954. "On the Sensation of Tone", New York EE.UU., Dover

[2] Solari, S.J., 1997. "Digital Video and Audio Compression", New York EE.UU. McGraw Hill

[3] Dolson, M.,1989, "Fourier Transform-Based Timbral Manipulations", en " Current Computer Music Research"., Mathews, Pierce ed. Cambridge, EE.UU. MIT Press

[4] Mojica Carlota. 1991. "Una Interfaz para Análisis de Sonido Mediante el Vocoder de Fase", Tesis de Grado, Santafe de Bogotá, Universidad de Los Andes

[5] McAulay, R.J. and Quatieri T.F., 1986. "Speech Analysis/Synthesis based on a Sinusoidal Representation". IEEE Transactions on Acoustics, Speech and Signal Processing. 34(4): 744-754

[6] Smith, J.O. and X.Serra. 1987. "PARSHL: An Analysis/Synthesis Program for Non-Harmonic Sounds based on a Sinusoidal Representation.". Proceedings of the 1987 International Computer Music Conference. San Francisco EE.UU. Computer Music Association

[7] Serra, X. 1996. "Musical Sound Modeling With Sinusoids Plus Noise"; Barcelona, España, Fundación Fonos, Universidad Pompeu Fabra.

[8] Reyes J., Lawson C., 1997, "Another Approach to Expression with Algorithms", Bogotá, Colombia, MOX - Computación Avanzada en Ingeniería, Universidad de Los Andes.

[9] Selfridge-Field, E. 1997, "Describing Musical Information", in Beyond Midi, Cambridge Mass.,EE.UU.MIT Press

[10] Marrin, Teresa, J. Paradiso. 1997. "The Digital Baton: A vesatile Performance Instrument". Proceedings of ICMC-97 pp 313 - 316. Thessaloniki, Grecia.

[11] Reyes J., Lawson C. 1998., "A Proposal for using SMS Files for Expression Modeling". Proceedings of DAFX98, Barcelona, España, Fundación Fonos, Universidad Pompeu Fabra.

[12] Reyes J. et al., 1998 "Onda Electruacústica Colombiana" CD Barreiro Ed. Santafé de Bogotá, Colombia., "33 Años de Música Electroacústica en Colombia" Santafé de Bogotá, Colombia., ECO/Exopotamia

[13] Radocy, R. and J.D. Boyle, 1988, "Psychological Foundations of Musical Behavior", Springfield, Illinois, USA, Charles C. Thomas Publisher.

[14] Picard R., 1997. "Affective Computing"., Cambridge, Mass.,EE.UU. MIT Press

[15] Mathews, M.,1967, "The Technology of Computer Music". Cambridge, MA. EE.UU. MIT Press.

[16] Marrin T., and R. Picard, 1998. "The Conductor's Jacket:: A Device for Recording Expressive Musical Gestures". in Proceedings of ICMC98. Ann Arbor MI., EE.UU. International Computer Music Association.

[17] Schottstaedt W., "Common Lisp Music: A Music Synthesis and Signal Processing Package in the Music V Family". in http://www-ccrma.stanford.edu/clm/clm.html

[18] Taube, H. 1991. "Common Music: A Music Composition Language in Common Lisp and CLOS". Computer Music Journal 15(2): pp 21-32. Cambridge Mass. MIT Press.

[19] Reyes J. M. Rincon, 1997. "An Intutive Interface for Using Spectral Modeling as a tool for Composition among Colombian Composers". in Proceedings of IV Simposio Brasileiro de Computacão e Música, Brasilia Brasil

[20] Lawson C., 1996. "Modelo Físico de un Instrumento Musical: La Flauta". Tesis de Grado, Santafe de Bogotá, Universidad de Los Andes

[21] Arcos J.L., de Mantaras R.L., and X. Serra, 1997, "SaxEx: a Case-Based Reasoning System for Generating Expressive Musical Performances", in Proceedings of 1997 International Computer Music Conference, pp 329 - 336, Thessaloniki, Grecia.



A R R I B A