La evolución tecnológica es tan rápida que nos convierte a
los usuarios de ella en meros consumidores, que ignoramos en muchas ocasiones
el por qué de las cosas o su origen. Porque ¿cuántos de nosotros sabemos que es
realmente el wordclok? Es más, ¿cuántos sabemos cómo funciona el audio digital?
¿Qué ventajas e inconvenientes tiene respecto del analógico? Y ¿cómo se han ido
subsanando?
Como consecuencia de esta reflexión, decidí ir un poco más
allá y dar unas nociones básicas de cómo va todo esto, para
llegar a comprender un poco mejor lo que tenemos entre manos. Todos nosotros, los que trabajamos en estudios
profesionales y los que dedican su tiempo libre a la música o al sonido, nos
apoyamos para ello, en gran medida, en equipos que procesan el audio en el
dominio digital: desde una tarjeta de audio de un ordenador personal, hasta la
más sofisticada de las consolas de mezcla digitales. Por esos equipos todo lo
que viaja son 0 y 1.
MUNDO DIGITAL
La aparición de los microprocesadores y su posterior
aplicación en DSPs (Digital Signal Processor o procesadores digitales de la
señal) permitió el desarrollo de la computación y, con ella, de las
aplicaciones prácticas como el audio digital. Ya para entonces éramos capaces
de captar y almacenar sonidos para su posterior reproducción en forma de
grabación de surcos en discos o magnetizando cintas. Pero estos soportes eran
perecederos y, con cada reproducción, disminuía la calidad obtenida. Además,
los valores del margen dinámico y la relación señal-ruido (nuestros
"Santos Griales") estaban limitados por las propiedades físicas de
los materiales utilizados como soportes y por la propia tecnología empleada.
El audio digital prometía mejores márgenes dinámicos y
relaciones señal-ruido. Pero parte de un handicap importante: la digitalización
o cuantización del audio se hace de forma discreta y no continua, es decir,
solamente se toman unas muestras por unidad de tiempo y se codifican en 0 y 1.
Con estas muestras se genera una aproximación al sonido original que, por
supuesto, nunca es exacta, pero que se acerca mucho, muchísimo.
La cuantización viene definida por la cantidad de muestras que se
toman por unidad de tiempo o frecuencia de muestreo y por la resolución o
tamaño de la palabra (word en inglés) que almacena la información (8, 16, 20,
24 bit). Como el sistema de computación es binario es fácil deducir que con una
resolución de 8 bit podemos situar las muestras tomadas en uno de los 256 niveles
de cuantización posibles (28=256). Si el sistema de conversión es de 16 bit los
niveles serán 65.536 (216) y a 24 bit de 1.048.576 (224). Usando un símil con
el mundo de la fotografía digital, una misma imagen de un paisaje la podemos
representar con 256 colores, 65.536 colores o más de un millón de ellos.
Gráfico, ¿no?
TEOREMA DE NYQUIST
Bien, ya sabemos que nuestro sistema digital convierte el
sonido analógico (continuo) en una representación discreta de él (discontinua)
basada en la toma de muestras. Pero ¿cuantas muestras tomar? ¿A qué resolución?
El teorema de Nyquist nos dice que para poder muestrear una señal analógica la
frecuencia de muestreo tiene que ser, al menos, el doble que la frecuencia
máxima que contiene el sonido que se quiere reproducir.
Atendiendo al margen audible de los humanos, que va desde
los 20 Hz a los 20 kHz, es necesario, como mínimo, que la frecuencia de
muestreo fuese de 40.000 muestras por segundo. Por otro lado, cada bit de una
muestra añade 6 dB de margen dinámico, por lo que con 8 bits obtendríamos 48
dB, con 16 bits 96 dB y con 24 bits 144 dB. Como el margen dinámico útil (sin
llegar al umbral de dolor) es de unos 110 dB y el de los sistemas analógicos de
cinta de unos 72 dB, pareció en principio que cuantizar a 16 bits era una buena
solución. Además, hay que tener en cuenta que a mayor número de bits por
palabra y mayor resolución, aumenta considerablemente el espacio requerido para
almacenar la información. Y ese espacio cuesta dinero.
Todos estos datos teóricos son, sin embargo, menores en la
realidad, debido a fenómenos físicos que se producen en el proceso de
digitalización y de los que no nos avisó el señor Nyquist.
ALIASING
En todo sonido complejo, como el que produce un instrumento
de cuerda, las frecuencias que se generan pueden ir más allá de los 20.000 Hz
en forma de armónicos que, aunque no nos son audibles, están presentes. Cuando
se digitaliza un sonido que contiene frecuencias superiores a las que puede
codificar, según Nyquist, se produce el fenómeno del aliasing, que convierte
esas frecuencias no cuantizables en otras que sí lo son, pero que no están
presentes en el sonido original, lo que introduce unos artefactos indeseables.
La imagen más clara para entender el aliasing es recordar lo
que ocurre cuando vemos la rueda de un carro en un película del oeste; aunque
el carro va hacia delante vemos la rueda girar en sentido inverso. No hay
concordancia entre el periodo de rotación de la rueda y la frecuencia de
"muestreo" del cine (24 imágenes por segundo). Para evitar este
problema hay que añadir un filtro paso-bajo que corte por encima de la
frecuencia que se corresponda con la mitad de la frecuencia de muestreo. Este
filtro es conocido como filtro anti-aliasing. Como un filtro paso-bajo teórico
con una pendiente infinita no existe y, además, generan problemas de
desplazamiento de fase en las frecuencias cercanas al corte (igualmente
indeseables), se estandarizó que la frecuencia de muestreo fuese de 44.100 Hz
para poder usar unos filtros con una pendiente menos acusada desde los 22.050
Hz.
ERRORES DE CUANTIZACIÓN
Otro problema con el que nos encontramos, inherente al
sistema de digitalización, es que, cuando la amplitud de una muestra no se
ajusta a un valor múltiplo de 6 dB, el bit que ocupa se resuelve por
proximidad, con lo se introducen constantes redondeos que añaden distorsión.
Ésta es especialmente audible (y, por ende, desagradable) en pasajes con muy
baja amplitud (cola de reverberaciones, pasajes muy suaves de un instrumento…).
No sólo la digitalización añade estos errores de
cuantización. Con la señal ya digitalizada realizamos todo tipo de operaciones,
mezclamos pistas, aplicamos plug-ins, cambiamos la ganancia, etc. Todos estos
procesos se realizan con operaciones matemáticas que hacen que las muestras
individuales se redondeen hasta el bit más cercano, añadiendo la consecuente
distorsión. La solución, paradójicamente, es la de añadir un cierto tipo de
ruido digital, a muy bajos niveles, para que sea éste el que se elimine fundamentalmente
en el proceso de redondeo. Este proceso se conoce como dithering y añade el
mínimo nivel de ruido digital necesario para minimizar los problemas por
redondeo.
Se pueden mejorar los resultados de los algoritmos del
dithering con técnicas de noise shaping, es decir, añadiendo el ruido en
aquellas zonas para las que el oído humano es menos sensible, haciendo que el
ruido añadido sea prácticamente inaudible. Aunque es importante resaltar que,
en teoría, deberíamos aplicar dithering en todos los procesos sujetos a errores
de cuantización, en la práctica el ruido que se obtiene en la cadena de
grabación es suficientemente adecuado como para usarlo. Por otra parte, los
programas que hay en el mercado suelen aplicarlo cada vez que se realiza un
proceso con la señal (normalizaciones, plug-ins).
Es especialmente aconsejable no usar la normalización salvo
al final, cuando hayamos procesado completamente el material, ya que hay que
tener en cuenta que, cada vez que lo hacemos, elevamos tanto el nivel de la
señal como el del ruido y, además, añadimos nuevo ruido con el dithering
aplicado. Es realmente un error del que debemos huir. Un proceso en el que
aplicar dithering es extremadamente recomendado es cuando reducimos la
resolución de un material, por ejemplo de 24 bit a 16 bit. En el mercado hay
algunos procesadores con gran prestigio y unos resultados sorprendentes: UV22
de Apogee, POW-r de POW-r Consortium o IDR de Waves Audio.
Como consejo, siempre que se pueda, recomiendo trabajar a 24
bit, desde la grabación hasta justo la obtención del fichero masterizado. El
incremento que se tiene del margen dinámico permite que los ruidos introducidos
por los errores de cuantización sean realmente despreciables. Sólo habría que
aplicar dithering al pasar el archivo master a 16 bit para ir a CD.
JITTER
La toma de muestras se realiza según la frecuencia de
muestreo, fn muestras por segundo. Eso significa que, teóricamente, la
separación temporal entre muestras debería ser de 1/fn segundos. Esto, en la
práctica, no siempre es así, introduciendo un tercer tipo de distorsión: la
dependiente de los errores de wordclock, conocida como jitter.
El wordclock es una señal de reloj que viaja junto con la
señal de audio digital (aunque también puede viajar de forma independiente) y
que marca la pauta de cuándo deben procesarse las muestras, tanto en grabación
como en reproducción. Cuando las muestras sufren pequeños retrasos o adelantos,
respecto al momento en que deberían ser procesadas, generan una modificación de
las frecuencias que codifican, produciéndose unas fluctuaciones o modulaciones,
análogas en cierta manera, a las que se producen en una cinta cuando la
velocidad de giro de la misma no es constante. Es un efecto muy sutil, difícil
de describir, pero que se manifiesta en una pérdida de definición y una imagen
estéreo más pobre.
Un sistema digital con un buen equipo externo de reloj, que
suministre wordclock y sincronice todos los equipos, es la mejor garantía para
evitar este problema, especialmente en el momento de la conversión A/D. Con
posterioridad, se pueden "recolocar" las muestras, pero ya no
representarán la realidad muestreada y el indeseable efecto lo arrastraremos en
toda la cadena.
CONCLUSIÓN
Desde la aparición de los primeros equipos digitales hasta
ahora ha llovido mucho, como se suele decir. De aquellos equipos que tantos
profesionales denostaban por su sonido frío y crujiente poco queda. Se han ido
descubriendo los talones de Aquiles y se les ha ido dando solución. El
desarrollo tecnológico avanza imparable hacia sistemas con mayor capacidad de
muestreo y mayor resolución, los medios para almacenar semejante cantidad de
información avanzan a la misma velocidad y, lo que es también importante, con
unos costes cada vez más asequibles. Aparecen nuevos formatos domésticos que
aprovechan estas evoluciones y que ponen en manos del consumidor unos niveles
de fidelidad impresionantes.
Ante todas estas consideraciones, y quizás un poco fuera de
contexto, me vienen dos preguntas bien diferentes. La primera es ¿significa
esta evolución el final de los sistemas analógicos? Yo afirmo que no, que las
distorsiones armónicas que generan los equipos a válvulas y las compresiones
tan agradables que generan los sistemas de grabación en cinta, continúan y
continuarán, teniendo cabida en la cadena de un sistema mixto, desde la fuente
sonora hasta el equipo reproductor. Para la segunda no tengo respuesta: ¿de qué
nos sirve tanta excelencia sónica si el formato de audio que parece que va a
imponerse es un formato comprimido (con una pérdida de información alrededor
del 90 %) y que va a ser escuchado en equipos, en el mejor de los casos,
mediocres?
Tomás Robisco