RSS Facebook Twitter Blog
Revista Luz & Cena
Caçando Mitos
Caçando Mitos (Parte 2)
A falácia do áudio de alta definição
Fábio Henriques
Publicado em 23/05/2013 - 21h30

Este mês prosseguimos em nossa análise a respeito de questões muito difundidas e que são absolutamente incorretas. Desta vez iremos estudar se faz sentido usar taxas de amostragem como 96 kHz e 192 kHz.

A SUPERGELADEIRA

Confesso que venho buscando situações do nosso cotidiano que ilustrem bem a um leigo o problema que temos aqui. Dan Lavry, um dos mais conceituados engenheiros do mundo do áudio digital, cita o exemplo de uma pessoa que sobe um morro. Quando chega lá em cima, alguém o convence de que se ele andar mais em frente irá chegar a um lugar mais alto. Ora, se ele está no topo, andar pra frente não o levará acima.

Não gosto muito desta comparação, pois não a acho muito ilustrativa. Outro dia, porém, consegui pensar numa que até hoje considero a melhor: o caso da supergeladeira. Pois bem. Imagine, leitor, que você, por algum motivo, precise muito de gelo. Não para congelar comida ou outra aplicação, mas apenas precise de gelo de água. Você então vai a uma loja de eletrodomésticos para comprar uma geladeira que seja especializada nesta função. Como você sabe desde o ginásio (ou como quer que se chame hoje em dia), a água congela a zero grau, formando o gelo. Se a temperatura sobe a, digamos, um grau, o gelo vira água (para simplificar, estamos considerando condições normais de pressão e água pura). O gelo, por sua vez, pode ter qualquer temperatura abaixo de zero. Lembremos que se você apenas queria gelo, comprando uma geladeira que seja capaz de gerar um ambiente de zero graus você estará bem atendido. Para ter uma margem de segurança, seria até prudente comprar uma que, em trabalho normal, gere -10 graus. Pronto: gelo à vontade.

Porém, nesta hora entra o vendedor. Ele argumenta que é muito melhor comprar uma geladeira mais potente - a supergeladeira -, que é capaz de gerar temperaturas de -100 graus. Ah, agora sim, você gasta o triplo, mas em compensação tem um gelo muito mais gelado. Mas o que você queria era simplesmente gelo, e para isso poderia ter gasto um terço. Gelo a -100 graus não é diferente de gelo a zero grau - só é mais frio. Alguém neste ponto poderia argumentar que o gelo a -100 é melhor porque dura mais e etc., mas o objetivo inicial dessa nossa analogia era apenas obter gelo, e mesmo que não fosse, haveria desvantagens neste caso, pois se você colocasse a mão nele, iria provavelmente sofrer queimaduras por frio. Gelo a -10 é segurança. A -100 é exagero.

Vejamos agora como isso se compara com o áudio. A partir do que vimos mês passado, fica nítido que a taxa 44.1 kHz é suficiente para registrar com perfeição todas as frequências até pelo menos 20 kHz. Porém, o nosso amigo teoricamente conhecedor de áudio tenta te convencer que é melhor comprar uma "supergeladeira" que amostra o áudio em 96 kHz, que em tese amostraria com perfeição até 48 kHz. É mais ou menos como gelo de -50 graus. Uma vez que a gente tenha acreditado e comprado, ele agora vai lamentar porque você, na verdade, poderia ter sido convencido de que 192 kHz seria o ideal, tal como o gelo de -100 graus, que daria pra ir se aguentando até que 384 kHz estivesse disponível...

Para os que acham que eu estou exagerando ou sendo equivocado, vamos ver o que a poderosa Apple tem a dizer.

MASTERED FOR ITUNES

Em janeiro de 2012, a Apple divulgou um paper em que apresenta o conjunto de ferramentas para a codificação de arquivos de áudio para o uso em seus dispositivos. O título do documento já é extremamente impreciso: "Mastered For iTunes - Música como o artista e o engenheiro de som desejam" (confira sua versão integral, em inglês, em http://tinyurl.com/4itunes). Pra começar, acho meio difícil que tanto um quanto o outro prefiram sua música codificada em AAC, mas tudo bem. É certo que os encoders atuais são extremamente eficientes, bem mais do que os que já codificaram (em 128 kbps) mais de 100 milhões de canções em pouco mais de um ano de lançamento do catálogo do iTunes, em 2003. Através do atual iTunes Plus, pode-se ter acesso a um conversor que gera codificação em 256 kbps VBR AAC. A Apple, então, apresenta no documento o conceito e as ferramentas do "mastered for iTunes". Sem entrar na discussão da coisa em si, que valerá um outro artigo inteiro, voltemos à questão da alta definição.

Neste tal paper, a Apple diz textualmente (tradução e grifo - em itálico - meus):

"O teorema da amostragem de Nyquist estabelece que para representar um sinal acuradamente deve ser usada uma taxa de amostragem que seja o dobro da maior frequência sendo representada. A frequência mais alta audível para os humanos está por volta de 20 kHz; e, portanto, uma taxa de amostragem de mais de 40 kHz é necessária para representar acuradamente a gama audível de frequências. Os 44.1 kHz usados nos CDs são adequados para suas necessidades."



Corretíssimo. Até aí assino embaixo. Só que no parágrafo seguinte temos a seguinte pérola:

"Mesmo assim, muitos experts sentem que o uso de arquivos PCM de maior resolução durante a produção fornece áudio de melhor qualidade e uma experiência auditiva superior no produto final. Por este motivo, a resolução de 96 kHz/24 bits está rapidamente se tornando o formato padrão da indústria, sendo também comum encontrar arquivos de resolução ainda maior, de 192 kHz/24 bits."

Dá pra perceber o absurdo da colocação? Primeiro, temos o reconhecimento de um fato, e logo a seguir a afirmação de que - ao contrário do que a Física e a Biologia atestam - o "sentimento" de "muitos" experts determina o "padrão da indústria"! Estamos investindo milhões de dólares em desenvolvimento e marketing para satisfazer o sentimento de (supostos) experts, mesmo que tudo o mais demonstre ser mero desperdício? E, afinal, que experts são esses? Quantos são "muitos"? E tem mais: como o que está se oferecendo é um arquivo com apenas 256 kbps, a ênfase da defesa da alta definição é muito espertamente jogada para o processo de produção, e não para a mídia distribuída. Ou seja, segundo o documento, você, como usuário final, não precisa de áudio de alta definição no produto que tem em mãos.

Uma coisa interessante é que não vejo ninguém defendendo a subida de 24 bits para 48 bits no tamanho da amostra, o que faria mais sentido em justificar a "alta definição", já que estaríamos aumentando a faixa dinâmica. Ou seja, os "experts" estão preocupadíssimos com resposta em frequência, mas não estão nem aí pra faixa dinâmica. Curioso, mas conveniente.


AS POSSÍVEIS VANTAGENS DA "ALTA DEFINIÇÃO"

Ethan Winer, em seu livro Audio Expert, defende que o uso de taxas como 96 kHz se justifica apenas quando a representação da informação acima do limite da audição é importante, como no caso dos softwares que retiram clicks e outros ruídos impulsivos. Isto porque os ruídos com esta característica - curtíssima duração e alta intensidade - possuem amplo espectro de frequências, indo bem acima do que podemos escutar, e o software pode usar isto como método de detecção, por exemplo.

Outras pessoas defendem que os instrumentos emitem acima da região audível, e esta região de cada instrumento interfere na dos outros, provocando o aparecimento de batimentos na região audível. Pois bem, admitindo que isto realmente ocorra, primeiro devemos admitir que os harmônicos desta região acima de 20 kHz são de baixa intensidade e provavelmente acabam mascarados pelas outras frequências mais baixas. Segundo, isso tende a acontecer muito mais intensamente se os diferentes instrumentos estão tocando no mesmo espaço físico, interagindo acusticamente. Assim, o benefício de usarmos amostragem em 96 kHz e superiores seria pouquíssimo se comparado ao consumo de memória, armazenagem e poder de processamento.



VOLTANDO A DAN LAVRY

Nosso já conhecido Dan afirma categoricamente em seu paper "Sampling Theory for Digital Audio", de 2004, que:

"Pesquisas mostram que os instrumentos podem produzir energia sonora acima de 20 kHz, mas há pouca energia sonora acima de 40 kHz. A grande maioria dos microfones não capta acima de 20 kHz. A audição humana raramente excede 20 kHz, e certamente não atinge 40 kHz. Isto sugere que 88.2 e 96 kHz seja exagero. Na verdade, todas as objeções feitas à amostragem de áudio em 44.1 kHz já ficam totalmente superadas se aumentamos a taxa para algo como 60 kHz."

Infelizmente, não há equipamentos com esta taxa, e o que se encontra são 88.2 e 96 kHz. Lavry até admite que se usem estas taxas, mesmo que elas sejam desnecessárias. Eu me permito discordar, fugindo um pouco da rigidez matemática e buscando exemplos psicoacústicos feitos com critério. Um clássico inquestionável é o trabalho "Double-blind test of SACD and DVD-A vs. Redbook 16/44", de Meyer e Moran, de 2007. Neste paper, eles demonstram que, sob rigorosas condições de teste, as pessoas simplesmente não conseguem distinguir áudio de alta definição do áudio do CD comum. Porém, a provável pressão da indústria gera quase uma "conspiração universal" a favor do áudio HD. Vejamos o que diz o relatório da 128ª convenção da AES, de 2010, "High Definition Audio Developments at the AES" (que pode ser conferido integralmente em http://tinyurl.com/high-aes):

"Audiófilos e muitos engenheiros de gravação que usam rotineiramente sistemas de áudio de alta definição consideram o resultado deste paper [o de Meyer e Moran] desconcertante, uma vez que a consciência do potencial para melhor qualidade de gravação é baseada no uso comercial prático e regular, sendo que o custo aumentado não poderia se justificar se não houvesse benefício."

Mais uma pérola, como podemos observar. Novamente, o uso regular por audiófilos e "muitos" engenheiros transforma a realidade, de forma que "se é mais caro, só pode haver benefício", mesmo que tanto a matemática quanto testes rigorosos provem o contrário. E o pior é que esta afirmação está num documento oficial da AES!

MAS EU OUÇO A DIFERENÇA

Agora, sim, chegamos ao cerne da questão. Para aqueles que se vangloriam de conseguir ouvir a diferença de áudio amostrado nestas taxas, tenho algumas considerações importantes. Talvez a maior de todas seja a seguinte: se você está feliz com o resultado que obtém gastando muito mais memória com menor número possível de canais e com maior distorção por intermodulação, nem se incomode. Continue assim. Afinal, se "muitos experts" o fazem...
Porém, preciso alertar para um detalhe importante: o fato de ouvir "diferença" não significa que o som está melhor. Muitas vezes há uma diferença, sim, provocada pelo que se chama de distorção por intermodulação. Ela é causada por não-linearidades (imperfeições) nos componentes e circuitos eletrônicos, e quanto maior for a taxa de amostragem usada, mais ela é acentuada. Então, pode ser que você esteja ouvindo a interface modificar o som original e não ser mais fiel a ele. Existem diversos trabalhos que mostram que em muitos casos o ser humano acha que a distorção é algo que deixa o som mais agradável.



Ethan Winer mostra em seu livro o caso clássico do Aphex Aural Exciter. Este equipamento reivindicava a capacidade de recuperar a estrutura harmônica perdida pela inserção de cabos e diversos circuitos no caminho do áudio. Quando ele apareceu, nem era vendido. Só podia ser alugado, para manter o segredo de seu funcionamento. Uma senhora estratégia de marketing, sem dúvida. Houve uma época em que o Aphex era algo tido como o segredo do sucesso. Acontece que, analisando o circuito, a gente descobre que o que ele fazia era gerar uma pequena distorção acima de 5 kHz.

Como já vimos aqui, distorcer significa criar harmônicos altos. Como resultado, o Aphex ampliava realmente o conteúdo harmônico, porém sem nenhuma fidelidade direta ao som original. Porém, este enriquecimento dos harmônicos altos agradava a maioria dos ouvintes, e daí seu sucesso.

Mesmo que admitamos que o efeito no áudio de alta definição da distorção por intermodulação deixe o som mais agradável, estaremos no extremo oposto do argumento inicial, que seria o de maior fidelidade.

O QUE EU DEFENDO

Acho que a esta altura precisamos, afinal, definir o que seria a minha sugestão para o trabalho cotidiano. O fato evidente é que não existe disponibilidade de equipamentos com taxa de 60 kHz. Pesando os prós e contras, então, eu trabalho tranquilamente gravando em 44.1 kHz no caso de CDs e em 48 kHz nos DVDs (por força do padrão), e nunca tive qualquer problema de qualidade final do produto. Para aqueles que fazem questão absoluta de capturar em taxas maiores, minha primeira recomendação é analisar se a situação da gravação justifica. Afinal, se gravar uma orquestra sinfônica pode recomendar tal cuidado, por outro lado, humming de guitarra captado em 96 kHz é tão ruim quanto em 48 kHz. E mesmo quando valer a pena gastar mais memória e usar menos tracks, se o produto final for um CD, a melhor frequência a usar é 88.2 kHz, pois a conversão para o padrão de 44.1 kHz é muito simples. Gravar em 96 kHz vai obrigar o uso de uma conversão complicada que anula e até piora qualquer suposto benefício.


CONCLUINDO?

Isto tudo que vimos aqui apenas reforça um fator fundamental em tudo o que se relaciona a tecnologia de áudio. Esta é uma área da ciência e da engenharia que é fortemente influenciada pela subjetividade humana. Lidar com música gravada atua em dois extremos da nossa consciência. De um lado, temos a emoção em seus aspectos mais profundos. De outro, a frieza dos números que geram a tecnologia. Não há como separar estes dois extremos. Caberia a nós, profissionais e amadores, estabelecer um balanço, de forma que a tecnologia estivesse a serviço da emoção. O que acaba acontecendo é que a pressão da tecnologia afeta o nosso lado emocional, em um efeito reverso. Pensamos que se uma ferramenta é mais "poderosa", o resultado percebido é certamente melhor. Infelizmente, isto não é a verdade nua e crua. Somos praticamente forçados a concluir que algo é mais agradável quando vem de um equipamento mais caro ou mais avançado. Um colega conta que, certa vez, perguntou ao técnico de uma mesa megacara que ele instalava: "Por que quando a gente escuta até mesmo um CD nesta mesa ele soa tão melhor?". E obteve do técnico a resposta: "Porque você sabe quanto ela custou".

O mais espantoso é que, curiosamente, no caso do áudio analógico, ocorre o efeito que chamo "reverso-reverso", em que todos acham que um equipamento mais antigo e mais limitado tecnicamente soa melhor só por causa disso. Isto é um evidente contrassenso. E iremos estudar este fenômeno no próximo mês, quando analisarmos o "mito do equipamento vintage". Até lá.

Fábio Henriques é engenheiro eletrônico e de gravação e autor dos Guias de Mixagem 1,2 e 3, lançados pela editora Música & Tecnologia. É responsável pelos produtos da gravadora canção Nova, onde atua como engenheiro de gravação e mixagem e produtor musical.
 
Conteúdo aberto a todos os leitores.