jueves, 25 de abril de 2013

Los Males del Audio Digital. Jitter, Aliasing y errores de cuantización


La evolución tecnológica es tan rápida que nos convierte a los usuarios de ella en meros consumidores, que ignoramos en muchas ocasiones el por qué de las cosas o su origen. Porque ¿cuántos de nosotros sabemos que es realmente el wordclok? Es más, ¿cuántos sabemos cómo funciona el audio digital? ¿Qué ventajas e inconvenientes tiene respecto del analógico? Y ¿cómo se han ido subsanando?

Como consecuencia de esta reflexión, decidí ir un poco más allá en este artículo y dar unas nociones básicas de cómo va todo esto, para llegar a comprender un poco mejor lo que tenemos entre manos. Todos nosotros, los que trabajamos en estudios profesionales y los que dedican su tiempo libre a la música o al sonido, nos apoyamos para ello, en gran medida, en equipos que procesan el audio en el dominio digital: desde una tarjeta de audio de un ordenador personal, hasta la más sofisticada de las consolas de mezcla digitales. Por esos equipos todo lo que viaja son 0 y 1.



MUNDO DIGITAL
La aparición de los microprocesadores y su posterior aplicación en DSPs (Digital Signal Processor o procesadores digitales de la señal) permitió el desarrollo de la computación y, con ella, de las aplicaciones prácticas como el audio digital. Ya para entonces éramos capaces de captar y almacenar sonidos para su posterior reproducción en forma de grabación de surcos en discos o magnetizando cintas. Pero estos soportes eran perecederos y, con cada reproducción, disminuía la calidad obtenida. Además, los valores del margen dinámico y la relación señal-ruido (nuestros "Santos Griales") estaban limitados por las propiedades físicas de los materiales utilizados como soportes y por la propia tecnología empleada.

El audio digital prometía mejores márgenes dinámicos y relaciones señal-ruido. Pero parte de un handicap importante: la digitalización o cuantización del audio se hace de forma discreta y no continua, es decir, solamente se toman unas muestras por unidad de tiempo y se codifican en 0 y 1. Con estas muestras se genera una aproximación al sonido original que, por supuesto, nunca es exacta, pero que se acerca mucho, muchísimo.

Sin entrar en gran detalle, que no es el objetivo de este artículo, la cuantización viene definida por la cantidad de muestras que se toman por unidad de tiempo o frecuencia de muestreo y por la resolución o tamaño de la palabra (word en inglés) que almacena la información (8, 16, 20, 24 bit). Como el sistema de computación es binario es fácil deducir que con una resolución de 8 bit podemos situar las muestras tomadas en uno de los 256 niveles de cuantización posibles (28=256). Si el sistema de conversión es de 16 bit los niveles serán 65.536 (216) y a 24 bit de 1.048.576 (224). Usando un símil con el mundo de la fotografía digital, una misma imagen de un paisaje la podemos representar con 256 colores, 65.536 colores o más de un millón de ellos. Gráfico, ¿no?


TEOREMA DE NYQUIST
Bien, ya sabemos que nuestro sistema digital convierte el sonido analógico (continuo) en una representación discreta de él (discontinua) basada en la toma de muestras. Pero ¿cuantas muestras tomar? ¿A qué resolución? El teorema de Nyquist nos dice que para poder muestrear una señal analógica la frecuencia de muestreo tiene que ser, al menos, el doble que la frecuencia máxima que contiene el sonido que se quiere reproducir.

Atendiendo al margen audible de los humanos, que va desde los 20 Hz a los 20 kHz, es necesario, como mínimo, que la frecuencia de muestreo fuese de 40.000 muestras por segundo. Por otro lado, cada bit de una muestra añade 6 dB de margen dinámico, por lo que con 8 bits obtendríamos 48 dB, con 16 bits 96 dB y con 24 bits 144 dB. Como el margen dinámico útil (sin llegar al umbral de dolor) es de unos 110 dB y el de los sistemas analógicos de cinta de unos 72 dB, pareció en principio que cuantizar a 16 bits era una buena solución. Además, hay que tener en cuenta que a mayor número de bits por palabra y mayor resolución, aumenta considerablemente el espacio requerido para almacenar la información. Y ese espacio cuesta dinero.

Todos estos datos teóricos son, sin embargo, menores en la realidad, debido a fenómenos físicos que se producen en el proceso de digitalización y de los que no nos avisó el señor Nyquist.


ALIASING
En todo sonido complejo, como el que produce un instrumento de cuerda, las frecuencias que se generan pueden ir más allá de los 20.000 Hz en forma de armónicos que, aunque no nos son audibles, están presentes. Cuando se digitaliza un sonido que contiene frecuencias superiores a las que puede codificar, según Nyquist, se produce el fenómeno del aliasing, que convierte esas frecuencias no cuantizables en otras que sí lo son, pero que no están presentes en el sonido original, lo que introduce unos artefactos indeseables.

La imagen más clara para entender el aliasing es recordar lo que ocurre cuando vemos la rueda de un carro en un película del oeste; aunque el carro va hacia delante vemos la rueda girar en sentido inverso. No hay concordancia entre el periodo de rotación de la rueda y la frecuencia de "muestreo" del cine (24 imágenes por segundo). Para evitar este problema hay que añadir un filtro paso-bajo que corte por encima de la frecuencia que se corresponda con la mitad de la frecuencia de muestreo. Este filtro es conocido como filtro anti-aliasing. Como un filtro paso-bajo teórico con una pendiente infinita no existe y, además, generan problemas de desplazamiento de fase en las frecuencias cercanas al corte (igualmente indeseables), se estandarizó que la frecuencia de muestreo fuese de 44.100 Hz para poder usar unos filtros con una pendiente menos acusada desde los 22.050 Hz.


ERRORES DE CUANTIZACIÓN
Otro problema con el que nos encontramos, inherente al sistema de digitalización, es que, cuando la amplitud de una muestra no se ajusta a un valor múltiplo de 6 dB, el bit que ocupa se resuelve por proximidad, con lo se introducen constantes redondeos que añaden distorsión. Ésta es especialmente audible (y, por ende, desagradable) en pasajes con muy baja amplitud (cola de reverberaciones, pasajes muy suaves de un instrumento…).

No sólo la digitalización añade estos errores de cuantización. Con la señal ya digitalizada realizamos todo tipo de operaciones, mezclamos pistas, aplicamos plug-ins, cambiamos la ganancia, etc. Todos estos procesos se realizan con operaciones matemáticas que hacen que las muestras individuales se redondeen hasta el bit más cercano, añadiendo la consecuente distorsión. La solución, paradójicamente, es la de añadir un cierto tipo de ruido digital, a muy bajos niveles, para que sea éste el que se elimine fundamentalmente en el proceso de redondeo. Este proceso se conoce como dithering y añade el mínimo nivel de ruido digital necesario para minimizar los problemas por redondeo.

Se pueden mejorar los resultados de los algoritmos del dithering con técnicas de noise shaping, es decir, añadiendo el ruido en aquellas zonas para las que el oído humano es menos sensible, haciendo que el ruido añadido sea prácticamente inaudible. Aunque es importante resaltar que, en teoría, deberíamos aplicar dithering en todos los procesos sujetos a errores de cuantización, en la práctica el ruido que se obtiene en la cadena de grabación es suficientemente adecuado como para usarlo. Por otra parte, los programas que hay en el mercado suelen aplicarlo cada vez que se realiza un proceso con la señal (normalizaciones, plug-ins).

Es especialmente aconsejable no usar la normalización salvo al final, cuando hayamos procesado completamente el material, ya que hay que tener en cuenta que, cada vez que lo hacemos, elevamos tanto el nivel de la señal como el del ruido y, además, añadimos nuevo ruido con el dithering aplicado. Es realmente un error del que debemos huir. Un proceso en el que aplicar dithering es extremadamente recomendado es cuando reducimos la resolución de un material, por ejemplo de 24 bit a 16 bit. En el mercado hay algunos procesadores con gran prestigio y unos resultados sorprendentes: UV22 de Apogee, POW-r de POW-r Consortium o IDR de Waves Audio.

Como consejo, siempre que se pueda, recomiendo trabajar a 24 bit, desde la grabación hasta justo la obtención del fichero masterizado. El incremento que se tiene del margen dinámico permite que los ruidos introducidos por los errores de cuantización sean realmente despreciables. Sólo habría que aplicar dithering al pasar el archivo master a 16 bit para ir a CD.


JITTER
La toma de muestras se realiza según la frecuencia de muestreo, fn muestras por segundo. Eso significa que, teóricamente, la separación temporal entre muestras debería ser de 1/fn segundos. Esto, en la práctica, no siempre es así, introduciendo un tercer tipo de distorsión: la dependiente de los errores de wordclock, conocida como jitter.

El wordclock es una señal de reloj que viaja junto con la señal de audio digital (aunque también puede viajar de forma independiente) y que marca la pauta de cuándo deben procesarse las muestras, tanto en grabación como en reproducción. Cuando las muestras sufren pequeños retrasos o adelantos, respecto al momento en que deberían ser procesadas, generan una modificación de las frecuencias que codifican, produciéndose unas fluctuaciones o modulaciones, análogas en cierta manera, a las que se producen en una cinta cuando la velocidad de giro de la misma no es constante. Es un efecto muy sutil, difícil de describir, pero que se manifiesta en una pérdida de definición y una imagen estéreo más pobre.

Un sistema digital con un buen equipo externo de reloj, que suministre wordclock y sincronice todos los equipos, es la mejor garantía para evitar este problema, especialmente en el momento de la conversión A/D. Con posterioridad, se pueden "recolocar" las muestras, pero ya no representarán la realidad muestreada y el indeseable efecto lo arrastraremos en toda la cadena.


CONCLUSIÓN
Desde la aparición de los primeros equipos digitales hasta ahora ha llovido mucho, como se suele decir. De aquellos equipos que tantos profesionales denostaban por su sonido frío y crujiente poco queda. Se han ido descubriendo los talones de Aquiles y se les ha ido dando solución. El desarrollo tecnológico avanza imparable hacia sistemas con mayor capacidad de muestreo y mayor resolución, los medios para almacenar semejante cantidad de información avanzan a la misma velocidad y, lo que es también importante, con unos costes cada vez más asequibles. Aparecen nuevos formatos domésticos que aprovechan estas evoluciones y que ponen en manos del consumidor unos niveles de fidelidad impresionantes.

Ante todas estas consideraciones, y quizás un poco fuera de contexto, me vienen dos preguntas bien diferentes. La primera es ¿significa esta evolución el final de los sistemas analógicos? Yo afirmo que no, que las distorsiones armónicas que generan los equipos a válvulas y las compresiones tan agradables que generan los sistemas de grabación en cinta, continúan y continuarán, teniendo cabida en la cadena de un sistema mixto, desde la fuente sonora hasta el equipo reproductor. Para la segunda no tengo respuesta: ¿de qué nos sirve tanta excelencia sónica si el formato de audio que parece que va a imponerse es un formato comprimido (con una pérdida de información alrededor del 90 %) y que va a ser escuchado en equipos, en el mejor de los casos, mediocres?

Tomás Robisco