ANEXO B. AUDIO DIGITAL

3.19.1 Representación digital La tecnología digital se basa en la conversión de una señal que varía de una manera análoga transformándola en un rango apropiado de valores numéricos. Con el fin de lograr esto, la tecnología computacional puede ser empleada en el proceso, transmisión y almacenamiento de la señales. Otras ventajas incluyen correcciones de error, de tal forma que el copiado y la transmisión se desarrollan de manera que no existan pérdidas. Además, permite que, lo que de otra manera tendría que haberse hecho con componentes físicos tales como resistencias, condensadores e inductancias, sea desarrollado ahora como procesos de cálculo. Figura 1. Principios de digitalización de señales análogas.

Audio Metering

3.19.2 Anti-alias. Antes que la señal análoga pueda ser convertida a señal digital, es necesario determinar una frecuencia de corte superior bien definida (fmáx), para lo cual se emplea un filtro pasa bajo. El proceso de filtraje se denomina antialiasing. La necesidad de filtraje se atribuye al mismo proceso de muestreo. La señal análoga no debe contener frecuencias que estén por encima de la mitad de la frecuencia muestreo. A esta frecuencia es la que se le llama la frecuencia de Nyquist. Si se presenta el caso en que la frecuencia muestreo es menor que dos veces la frecuencia de entrada más alta, entonces se crearán componentes de frecuencia en la señal reconstruida los cuales no estaban presentes en la señal original.

- 190 -

El filtro se requiere para asegurar que la señal original no distorsione. La siguiente figura muestra lo que ocurre cuando la frecuencia de muestreo es demasiado baja. Figura 2. Ejemplos de muestreo.

Audio Metering

En la figura anterior se representa lo siguiente: A: Señal que está siendo muestreada. B y C: las muestras se toman 8 y 6 veces por periodo respectivamente, y la señal puede ser reconstruida correctamente. D: hay menos de dos muestras por periodo, y después del filtraje surge una frecuencia completamente diferente, es decir, una frecuencia alias que no es correcta.

3.19.3 Muestreo. Después de pasar por el filtro pasa bajos, se efectúa el muestreo, el cual consiste en medir valores instantáneos de la señal. La frecuencia a la cual se toma esta medida se denomina frecuencia de muestreo (fs). Las frecuencias de muestreo de 32 kHz, 44,1 kHz y 48 kHz son los estándares para calidad de audio. El uso de 88,2 kHz, 96 kHz, 176,4 kHz y 192 kHz también se ha vuelto muy común. Este último se ha visto particularmente en uso con el audio DVD. Para cada muestra, el valor instantáneo de la señal análoga se retiene tanto tiempo como el conversor A/D (ADC) lo requiera para desarrollar la conversión. La detención se lleva a cabo por medio de un circuito de "agarre" (del inglés, hold) el

- 191 -

cual es, fundamentalmente, un condensador que se carga/descarga al valor instantáneo de la señal en el instante en que se toma la muestra. En ocasiones se emplea un re-muestreo en muchos conversores, es decir que la muestra se hace a una frecuencia que es un número de veces mayor que el requisito mínimo. La lectura de la señal análoga generalmente ocurre tan rápido que la función de "agarre" puede ser omitida. El re-muestreo se hace debido a que este permite mayor facilidad al momento de implementar los filtros anti-alias. Adicionalmente, el re-muestreo es necesario cuando se requiere que la señal tenga resolución de muchos bits, nuevamente debido a que no es posible implementar filtros que sean tan precisos, por ejemplo, que tengan la capacidad de detectar cualquier diferencia en una resolución de 24 bits.

3.19.4 Cuantificación. Ahora viene la parte del proceso que determina el "número" digital. La palabra cuantificación viene del vocablo en latín Quantitas = tamaño. Durante la cuantificación, el tamaño de cada muestra individual se convierte en un número. Sin embargo, esta transformación, o conversión, no siempre es completamente ideal. La escala que está siendo utilizada para propósitos de comparación tiene una resolución finita que está determinada por la cantidad de bits. Figura 3. Ejemplos de niveles de cuantificación.

Audio Metering

- 192 -

Con cuantificación, es el número de bits el que determina la precisión del valor de la lectura. Cada vez que haya uno o más bits disponibles, la resolución de la escala se dobla y por lo tanto el error en la medida se reduce a la mitad. En la práctica, esto significa que la relación señal a ruido se mejora aproximadamente en 6 dB por cada bit extra que esté disponible. De igual forma, se emplean entre 8 y 24 bits en la cuantificación de señales análogas. La calidad de CD corresponde a 16 bits por muestra (65536 valores posibles). Solamente hay un número finito de valores disponibles cuando la magnitud de la señal está determinada, lo cual significa que el valor analógico actual al momento del muestreo se representa de hecho por el valor más cercano sobre la escala. Con una cuantificación lineal puede darse el caso que una resolución de unos pocos bits puedan dar como resultado una distorsión extrema de la señal original. Con docente también hay ciudades, esta distorsión gradualmente se convierte en algo que puede ser percibida como ruido de ancho de banda. Como regla general, se estima que la relación señal a ruido esté cerca de los 6 dB por bit.

3.19.5 Conversión Analógico/Digital. Los componentes principales en un conversor A/D son uno o más comparadores, los cuales confrontan los valores instantáneos de las muestras individuales con un voltaje de referencia que viene incluido dentro del conversor. Después de la comparación, la salida del comparador señala el valor 0 (o "bajo") si el valor instantáneo de la señal es menor que la referencia. Si el valor instantáneo de la señal es igual o mayor que la referencia, entonces la salida del comparador señala el valor 1 (o "alto"). Para cuantificación serial (secuencial), el comparador primero determina el bit más significativo, luego el siguiente bit, etc. hasta que se ha determinado el bit menos significativo. Para una conversión en paralelo, se requiere un comparador para cada nivel que está siendo establecido, es decir, que para n bits corresponde a 2n-1. Si, por ejemplo hubiera ocho bits disponibles para el total de la señal, esto correspondería a una resolución de 256 niveles, representado por medio de valores numéricos en el rango de 0-255. Frecuentemente se emplea una de forma de codificar en donde el primer dígito especifica la polaridad de la señal. Si el número es "0" entonces se ha muestreado un valor de voltaje positivo. Si el número es "1", entonces se ha muestreado un valor de voltaje negativo. Una solución que combina conversión serial y paralela es un conversor Flash, en donde típicamente se establecen cuatro o cinco bits de una sola vez.

3.19.6 Conversión Digital/Analógico. En la figura 57 los dígitos almacenados se convierten nuevamente en una señal analógica: básicamente los dígitos se leen

- 193 -

dentro de una fuente de alimentación programable, de tal forma que se recrean los pasos de voltaje correspondientes. El filtro pasa-bajo suaviza la señal de forma que los armónicos son removidos, dejando la señal muy cerca del espectro de frecuencia deseado. Figura 4. Conversión Digital/Análogo.

Audio Metering

En la conversión de digital a analógico, el objetivo es producir un voltaje que sea proporcional al valor que está contenido en la información digital numérica. Esto se logra haciendo que cada bit represente una fuente de voltaje de tal forma en que el bit más significativo se convierta en la fuente de voltaje más grande, el siguiente bit más significativo, en la mitad del voltaje de la primera fuente y, así sucesivamente. Todos los pasos de voltaje se suman, y un circuito de retención mantiene la señal continua hasta que la siguiente muestra sea convertida. Después de esto, la señal creada se suaviza por medio del uso de un filtro pasa bajo. La conversión D/A ese principio muy simple, sin embargo puede ser difícil controlarla en el mundo real, donde por ejemplo 216 = 65536 diferentes niveles pueden ser generados por una señal de 16 bits. Ciertamente allí pueden estar las diferencias en la calidad de los conversores de A/D en la práctica. Los conversores pobres pueden tener un desplazamiento de DC y una linealidad demasiado pobre en su dinámica respectiva. Sin embargo existen algunos métodos para reducir estos problemas.

3.19.7 Reducción de bits. En principio, la calidad del sonido digital puede estar determinada por el número de bits por muestra y por la frecuencia de muestreo. En ambos casos: la más alta y la mejor. El problema es que, para muchos propósitos, incluidos la transmisión de sonido a través de Internet, no es posible

- 194 -

transferir dentro de una cantidad de tiempo razonable el número de bits por segundo que se requiere para una calidad de CD (16 bits/44,1 kHz). Por tal motivo es necesario disminuir el número de bits por segundo. A este procedimiento se le conoce como reducción de bits o compansión de bits (que es como una mezcla entre las palabras compresión y expansión). Fundamentalmente, hay tres métodos que se utilizan. El método más simple es utilizar un reducido número de bits por muestra y una baja frecuencia de muestreo, sin embargo el resultado es el deterioro en la calidad. El segundo método, el cual ha sido empleado por muchos años, es la cuantificación no lineal, donde el método de la ley A y el método de la ley µ son los más utilizados. El resultado es mucho mejor que el que proporciona la simple solución mencionada anteriormente. Estos métodos se emplean frecuentemente en comunicaciones, sin embargo la calidad no es lo suficientemente buena como para la industria de la música. El tercer método se denomina codificación perceptual, y se basa en la "psicoacústica". Este parte del hecho de que el oído no escucha todo en un espectro al mismo tiempo. El principio es que lo que no puede ser escuchado o audible puede ser descartado.

3.19.8 Codificación perceptual. Si el oído se afecta por un sonido en una parte limitada del espectro de frecuencia, entonces este sonido, dependiendo de su nivel, hasta cierto punto estará en capacidad de enmascarar u ocultar otro sonido a una frecuencia similar (o ligeramente mayor) y a un nivel más bajo aún si ese nivel está sobre el valor umbral de la sensibilidad del oído. La codificación perceptual hace uso de este conocimiento.

3.19.8.1 Principios comunes. Para la codificación perceptual se desarrolla un análisis en frecuencia. Una muestra por sí misma nota información de frecuencia por lo tanto se recolecta un número mayor, típicamente 1024 muestras. Se efectúan cálculos de una banda de frecuencia a otra determinando si la señal en las partes circundantes del espectro de frecuencia está enmascarando esta banda. Los datos enmascarados en las bandas son desechados. Adicionalmente, los canales múltiples pueden compartir la información que tienen en común. Los bits se emplean solamente en aquellos rangos que son más importantes para la secuencia que se está tratando. Es posible ir desde los 1411 kbps (calidad de CD) hasta los 96 kbps (por ejemplo MP3 y PAC) sin una pérdida de calidad abrumadora.

- 195 -

Sin embargo, las desventajas consisten en que toma tiempo comprimir la ráfaga de bits, y de igual forma toma tiempo expandirla nuevamente. Por lo tanto, se experimentarán en la transmisión retardos de tiempo de algunos cientos de milisegundos, debidos solamente la complejidad de los algoritmos.

- 196 -

3.20 AUDIO EN LA INTERFASE DIGITAL SDI Una de las ventajas de la interfase digital es la habilidad para embeber (multiplexar) diferentes canales de audio digital dentro del video digital. Esto es particularmente útil en sistemas grandes en donde un enrutamiento separado del audio digital podría generar altos costos pero además, brinda la ventaja de que el audio se asocia con el video apropiado. En sistemas más pequeños, tal como un estudio de postproducción, generalmente es más económico mantener el audio separado con el fin de eliminar la necesidad de crear numerosos módulos de multiplexación y demultiplexación. La manipulación de audio digital se define en el estándar 272M de la ANSI/SMPTE, Formato de audio AES/EBU y Datos Auxiliares en el Espacio de Datos Auxiliares de Video Digital, para formatos ANSI/SMPTE 259M de 525/60 y 625/50. Se transmiten de 2 a 16 canales de audio AES/EBU en pares y se combinan donde sea necesario o apropiado en grupos de cuatro canales. Cada grupo se identifica por medio de un dato auxiliar único (ID). El audio se muestrea a una frecuencia de reloj sincrónica de 48 Khz., u opcionalmente a una tasa sincrónica o asincrónica de 32 a 48 Khz. Figura 5. Formato de Datos Auxiliares

A Guide to Standard and High-Definition Digital Video Measurements

Los datos auxiliares se formatean en paquetes antes de ser multiplexados en la ráfaga de datos de video como se muestra la figura 58. Cada bloque de datos puede contener hasta 255 palabras de usuario proporcionadas, por lo que hay suficiente espacio de datos disponible para incluir las siete palabras generales (para video por componentes). Para digital compuesto, solamente los amplios pulsos de sincronismo vertical tienen suficiente espacio para las 255 palabras completas. Los paquetes de datos múltiples en ser colocados en espacios de datos individuales.

- 197 -

Al comienzo de cada paquete de datos va un encabezado que utiliza los valores de la palabra que están excluidos de los datos de video digital y reservados para propósitos de sincronismo. Para video por componentes, se emplea un encabezado de tres palabras 000H , 3FFH y 3FFH . Cada tipo de paquetes de datos se identifica con una palabra ID de datos diferente. Una variedad diferente de palabras ID de datos se definen para organizar los distintos paquetes de datos utilizados para el audio embebido. El Número de Bloques de Datos (de inglés Data Block Number DBN) es un contador opcional que puede ser utilizado para suministrar un orden secuencial a los paquetes de datos auxiliares permitiendo al receptor determinar si algún dato se ha perdido. Como ejemplo, con audio embebido, una interrupción en la secuencia DBN puede ser empleada para detectar si ha ocurrido un intercambio de intervalo vertical, y de ese modo, permitiendo al receptor procesar los datos de audio para remover probables transcientes como "click" o "pop". Justo antes de los datos está la palabra de conteo de datos que indica la cantidad de datos en los paquetes. Finalmente, después de los datos está la palabra de comprobación que es empleada para detectar los errores en los paquetes de datos.

3.20.1 Audio embebido en video digital por componentes. El audio embebido y las opciones disponibles se definen en el estándar 272M de ANSI/SMPTE para definición estándar. Una configuración básica de audio embebido con dos pares de canales AES se muestra en la figura 59.

- 198 -

Figura 6. Audio embebido básico

A Guide to Standard and High-Definition Digital Video Measurements

Los paquetes de datos de audio contienen una o más muestras de audio de hasta cuatro canales. 23 bits (20 bits de audio más los bits C, U, y V) de cada sub-parte de AES ser mapean en tres palabras de video de 10 bits cada una (X, X+1, X+2) como se muestra en la tabla 8.

- 199 -

Tabla 1. Distribución de Bits de Audio Embebido

A Guide to Standard and High-Definition Digital Video Measurements

Como se puede observar el bit 9 siempre es el inverso del bit 8 para asegurar que ninguno de los valores de palabras excluidas sean utilizados (3FFH a 3FCH o 003H a 000H). El bit Z se coloca en 1, el cual corresponde al primer cuadro del bloque AES de 192 cuadros. Esencialmente, los canales de audio embebido son independientes (aunque siempre sean trasmitidos en pares) de esta forma el bit Z se coloca en 1 aún si éste se deriva de la misma fuente AES. Los bits C, U y V se mapean de la señal AES. Sin embargo el bit de paridad no es el bit de paridad de AES. El bit 8 en la palabra X+2 es precisamente la paridad para los bits 0-8 en todas las tres palabras. Existen diferentes restricciones respecto a la distribución de los paquetes de datos de audio aunque hay una cláusula en el estándar que explica los equipos antiguos que puedan no observar todas las restricciones. Los paquetes de datos de audio no son trasmitidos en el espacio de datos auxiliares horizontal siguiendo el switcheo del intervalo vertical normal como se define en RP 168. Asimismo, éstos no se transmiten en el espacio de datos auxiliares designados para las palabras de chequeo de detección de error que se definen en RP 165. Tomando en cuenta esas restricciones, los datos deben ser distribuidos tan uniformemente como sea posible por todo el campo de video. Esto es muy importante con el fin de minimizar el tamaño del buffer receptor para transmisiones de audio de 24 bits en sistemas digitales compuestos. Esto produce como resultado tres o cuatro muestras de audio en cada paquete de datos de audio.

- 200 -

3.20.2 Audio embebido extendido. El audio embebido característico se define en el estándar descrito anteriormente e incluye: ¾ ¾ ¾ ¾ ¾ ¾

Transporte de 4 bits a auxiliares AES (los cuales pueden ser utilizados para extender las muestras de audio a 24 bits) Permitir una operación de reloj asíncrona. Permitir muestreos superiores a los 48 kHz. Suministrar información de retardo de audio a video para cada canal. Documentar las identificaciones de datos (Data IDs) permitir hasta 16 canales de audio en sistemas digitales por componentes. Contabilizar los "frames" de audio para sistemas de 525 líneas.

Para suministrar ésas características se definen dos paquetes de datos adicionales. Los paquetes extendidos de audio transportan los 4 bits auxiliares AES formateados como la palabra de video de la figura 60 que contiene los datos auxiliares para dos muestras de audio. Figura 8. Audio embebido extendido

A Guide to Standard and High-Definition Digital Video Measurements

Los paquetes de datos extendidos deben estar localizados en el mismo espacio de datos auxiliares como los paquetes de datos de audio asociados y deben seguir a los paquetes de datos de audio.

- 201 -

Figura 9. Formato del Paquete de Control de Audio

A Guide to Standard and High-Definition Digital Video Measurements

El paquete de control de audio (mostrado en la figura 61) se transmite una vez por campo en el segundo espacio de datos auxiliares horizontal después del punto de switcheo de intervalo vertical. Este también contiene información sobre número de "frame" de audio, frecuencia de muestreo, canales activos y retardo relativo de audio a video para cada canal. Las transmisiones de paquetes de control de audio son opcionales para operaciones sincrónicas de 48 kHz y necesarias para todos los otros modos de operación (aún cuando éstos contengan de información de cual es el modo que está siendo utilizado). Los números de frame de audio son instrumentos de la operación de 525 líneas, 29.97 frame/segundos. Hay exactamente 8008 muestras de audio en 5 frames, lo cual significa que hay un número no entero de muestras por frame. Una secuencia de frame de audio es el número de frames por número entero de muestras (en éste caso cinco) y el número de frame de audio indica en la secuencia a donde pertenece un frame en particular. Esto es importante en el momento en que se intercambia entre fuentes debido a que en cierto equipo, y más notablemente en grabadores de video digital, se requiere operación sincrónica congruente con el fin de prevenir sobre-flujo o sub-flujo en el buffer. Con el fin de suministrar hasta 16 canales de audio en sistemas digitales por componentes, el audio embebido se divide en grupos de audio que corresponden a la operación básica de cuatro canales. Para cada uno de los tres tipos de paquetes de datos se asignan cuatro IDs de datos como se muestra en la tabla 9.

- 202 -

Tabla 2. IDs de datos para operación de hasta 16 canales.

A Guide to Standard and High-Definition Digital Video Measurements

En un video digital por componentes, el buffer receptor en un demultiplexor de audio no es un problema crítico ya que hay demasiado espacio de datos auxiliares disponible y unas pocas líneas que omiten los datos auxiliares de audio. El caso es considerablemente diferente para video digital compuesto debido a la exclusión de datos en los pulsos de igualación y, aún más importante, la distribución de paquetes de datos necesaria para el audio embebido. Por esta razón el estándar requiere un buffer receptor de 64 muestras por canal con una cláusula de 48 muestras por canal para advertir a los diseñadores de las limitaciones en el equipo antiguo.

3.20.3 Sistematizando el audio AES/EBU. El audio y el video serial digital se están convirtiendo en algo muy común en las instalaciones de producción y post producción así como en las estaciones de televisión. En la mayoría de los casos el video y el audio son fuentes correlacionadas y por esta razón es deseable mantenerlas juntas y tratarlas como si fueran una ráfaga de datos. Por ejemplo, esto tiene la ventaja de que exista la capacidad de mantener las señales en el dominio digital e intercambiarlas al mismo tiempo con un Routing Switcher de video digital serial. En el caso ocasional donde sea deseable dividir alguna de las fuentes de audio, el audio digital puede ser demultiplexado e intercambiado separadamente por medio de un Routing Switcher de audio digital AES/EBU. En el extremo receptor, después de que el audio haya pasado a través del Routing Switcher serial digital, puede que sea necesario extraer el audio del video de tal forma que la edición, la musicalización y otros procesos puedan ser llevados a cabo. Esto requiere un demultiplexor que extraiga el audio AES/EBU del video digital serial. La salida de un demultiplexor típico tiene un terminal BNC de video digital serial así como conectores para los dos pares estéreo de las señales de audio digital AES/EBU.

- 203 -