Sample Rate: O que é? Como e qual usar para sua gravação. : Blog

Você, em seu home studio, provavelmente já se deparou com esse termo. Em português, quer dizer taxa de amostragem. Nos sistemas de gravação digital a sample rate define quantas vezes por segundo serão coletadas amostras do sinal analógico enviado por um microfone ou instrumento. Quanto maior a o número, mais amostras de um sinal analógico são coletadas por segundo. Contudo, nem sempre a escolha pela mais alta é a melhor opção.

Eu só quero saber qual sample rate usar!

Em resumo, para escolher a taxa de amostragem de um projeto você deve levar em consideração:

A capacidade de processamento de seu computador
A mídia final para a qual sua música se destina. Por exemplo, utiliza-se a taxa de 44.1 kHz em CDs e plataformas de música e 48 kHz em vídeos. Então, se optada por alguma outra taxa, sua música em algum ponto será convertida para esses valores.
Se você tem aparelhos e softwares adequados para conversão futura de sample rate.
Sugestão Magroove: Só trabalhe em 44,1k se receber o projeto assim de alguém e estiver nele. De resto, seja projeto unicamente musical, seja para vídeo, 48k

O que é sample rate ?

Primeiro: o que é um "sample"?

Uma sample é uma amostra do sinal analógico. Os sons são vibrações que se propagam em meios físicos, dentre eles, o ar. Quando você fala, as vibrações das suas cordas vocais produzem sons que viajam pelo ar. Essas vibrações ocorrem em ciclos. A quantidade de ciclos por segundo chama-se frequência. Na física a unidade de medida para frequência é o Hertz. Assim, a frequência dos sons é medida em Hertz. Quanto mais rápida a frequência, mais agudo é o som. A audição humana vai de 20Hz a 20KHz. Quer dizer que o som mais grave que conseguimos ouvir tem frequência de 20Hz e o mais agudo tem frequência de 20.000Hz. Você já deve ter visto a representação gráfica do som enquanto onda. Então, preste atenção a esse gráfico - ele representa na vertical a intensidade ou volume de um som e na horizontal a propagação da onda no espaço.

Representação de uma onda sonora

Para representar a onda sonora, o computador guia-se por pequenas amostras que devem conter os dados necessários para a reprodução do som. Imagine uma cantora que tem sua voz captada por um microfone. O som de sua voz é energia acústica e faz o ar vibrar. Essa vibração é transformada pelo microfone em sinal elétrico, que é transmitido pelo cabo à interface de áudio. Na entrada do cabo na interface de áudio há um conversor AD (analógico / digital). Então, o sinal elétrico é digitalizado, ou seja, codificado na linguagem binária de 0 e 1. Da mesma forma, na saída da interface para as caixas de som, um conector DA faz o contrário, transforma o código binário em sinal elétrico, e assim volta a ser som.

Representação visual da diferença entre uma onda sonora digital e uma analógica

Pra que serve a sample rate?

A sample rate define quantas vezes uma amostra do sinal analógico será coletada em um período de 1 segundo. Lembra que na física o Hertz é a unidade de medida para frequência? A sample rate também usa Hertz, já que representa quantas samples serão coletadas em um segundo. Pense na sample rate como "fotos" do som: quanto mais fotos tiradas, melhor vou conseguir representar o que o som estava fazendo em cada milésimo de segundo. Então, quer dizer que quando usamos a sample rate de 44.1 kHz , coletamos 44.100 amostras em apenas um segundo. Parece muito, não é mesmo? Mas saiba que não é. O computador precisa descrever, em sua linguagem binária, uma onda que na natureza é contínua.

Representação gráfica de uma onda com uma sample rate baixa versus uma sample rate alta

Representação visual da diferença entre uma onda sonora digital afetada por uma sample rate e uma analógica

Teorema de Nyquist

Segundo o Teorema de Nyquist, para que a representação digital de um som seja correta, precisamos de uma taxa de amostragem no mínimo duas vezes maior que a mais alta frequência que queremos gravar. Como o som mais agudo que escutamos tem frequência de 20 kHz, eu preciso de uma taxa de amostragem de no mínimo 40 kHz parra que essa frequência possa ser digitalizada. Sendo assim, Se não conseguimos ouvir mais do que 20 kHz, porque precisamos de uma sample rate maior que 40kHz? Aliás, por que o padrão mínimo é 44,1 kHz e não 40 kHz?

Efeito Aliasing

De acordo com o Teorema de Nyquist, se regulamos nossa sample rate para 44.1 kHz ou 48 kHz, as frequências mais agudas que conseguiremos registrar em nossa gravação digital serão respectivamente de 22,05 kHz e 24 kHz. No entanto, além de definir uma frequência máxima, a sample rate escolhida tem um efeito colateral: todas aquelas frequências acima do limite que estabelecemos não serão distinguidas ou serão erroneamente interpretadas como frequências mais baixas. Isso se chama efeito aliasing ou foldover. O efeito aliasing distorce o som e pode fazer com que o sinal reconstituído a partir dos samples seja diferente do sinal original.

Filtro anti-aliasing

Para evitar que as frequências agudas gerem distorção, as placas de som costumam vir com um filtro anti-aliasing na entrada do sinal antes de sua conversão para o digital. Contudo, por questões técnicas, não é possível a fabricação de um filtro anti-alising com um ataque súbito logo após a faixa da audição humana. Então, o corte do filtro acaba fazendo uma curva, diminuindo gradativamente a entrada das frequências agudas. Essa curva é chamada faixa de transição. Nessa faixa o filtro não vai nem rejeitar e nem deixar passar totalmente as frequências. Com isso, a faixa de transição do filtro anti-aliasing deve ficar além da frequência de 20 kHz, ou gerará perdas no som que ouvimos. Normalmente, o padrão de 44.1 kHz gera uma faixa de transição larga o suficiente para que o filtro seja acionado de forma a não permitir aliasing nas frequências de até 20 kHz. Entretanto, isso depende da qualidade do filtro. O problema é que dificilmente conseguimos informações sobre a qualidade dos filtros anti-aliasing das placas de som disponíveis no mercado. Por isso, alguns preferem utilizar uma sample rate alta, como a de 88.2 kHz, para garantir que o efeito aliasing ou a ação do filtro anti-aliasing não prejudique o conteúdo das frequências em torno de 20 kHz.

O que é jitter e dither?

Jitter

O jitter é um erro de clock. O clock determina a distribuição do processo de amostragem no decorrer do tempo. Contudo, pode haver variações de clock e desvios no padrão de tempo da leitura, fazendo as "fotos" do som serem tiradas com um pouco de atraso ou de adianto do ritmo (sample rate) programado. Esse erro se chama jitter. Diferentes fatores podem gerar jitter, entre eles mudanças na voltagem da corrente elétrica e ruído no sinal de áudio. Os erros de clocking danificam a leitura da onda sonora, podendo levar a alterações de timbre e de frequências. Pode haver jitter tanto no momento da conversão do analógico para o digital quando no momento da conversão do digital para o analógico. Contudo, ele é mais comum nesse último caso.

Dither

O dither é um ruído de fundo que você aplica quanto exporta seu áudio. Ele é utilizado para mascarar erros na digitalização do sinal. Entre esses erros, o jitter. O ruído do dither as vezes é chamado de noise floor, apesar de não ser a utilização correta do termo técnico. Ele é mais agradável a nossos ouvidos do que as distorções geradas na amostragem do sinal analógico. Se usado de forma correta, o dither não é nem mesmo notado.

Latência

Em áudio, a latência é o período de tempo entre a entrada do sinal no sistema e a percepção desse sinal, ou seja: é o atraso com relação à fonte sonora. É o tempo para que o sinal seja transmitido. O áudio digital introduz problemas de latência ligados às conversões AD e DA. Esses problemas ligam-se diretamente ao buffer size. O buffer é uma memória temporária onde são enfileiradas amostras de som. Um som captado que será convertido para o digital passa por uma entrada de buffer. Essa entrada deve ser grande o suficiente para armazenar as amostras que serão sampleadas enquanto o processador realiza outra tarefa. Quanto maior o buffer maior a latência. Reduzindo o buffer diminuímos a latência, mas aumentamos o tempo de processamento. Isso, por causa da necessidade de recarga constante do buffer. Se o buffer é muito pequeno, a CPU terá problemas em realizar várias tarefas ao mesmo tempo, o que pode causar interrupções no fluxo do som. Além de diminuir o buffer, para diminuir a latência você também pode aumentar a sample rate. Parece contraditório, já que sample rates maiores precisam de maior capacidade de processamento. Mas se seu sistema tiver essa capacidade, a latência base menor.

Espaço em disco

Quando você escolhe utilizar uma sample rate alta, você trabalha com arquivos mais pesados. Consequentemente, precisará de mais espaço no disco rígido para armazenar o projeto. Se você costuma fazer trabalhos ou parcerias por internet, deve considerar que quanto mais pesado o projeto mais tempo levará para fazer upload e download.

Configurando a sample rate na DAW (Digital Audio Workstation)

As DAWs costumam oferecer diferentes opções de sample rate, normalmente variando entre 44.1 kHz e 192 kHz. Antes de regular a sample rate em sua DAW é sempre bom verificar se sua interface de áudio suporta essa configuração. Atualmente, as taxas de amostragem de interfaces comuns no mercado, tais como M-Audio, Pressonus, Steinberg ou Focusrite, costumam suportar de 44,1 kHz a 192 kHz sem problemas. Mas é sempre bom conferir no manual. Também é interessante você observar a frequency range (faixa de frequência) e a frequency response (resposta de frequência) de seu microfone. Esses parâmetros apontam a sensibilidade de seu microfone para determinada faixa de frequência. Será que vale a pena gravar com uma sample rate de 192 kHz para captar as frequência ultra agudas se seu microfone só capta até 20 kHz?

Afinal, qual sample rate devo usar?

44.1 kHz versus 48 kHz

CDs são em 44,1 kHz e MP3s normalmente são entregues com a taxa de 44.1kHz. Esse padrão foi estabelecido no início da década de 80 pelas empresas Philips e Sony. Mas por que um número tão estranho? Segundo o especialista em tecnologia musical Mitch Gallager, no início da gravação de áudio digital o padrão era de 48 kHz. Contudo, os fabricantes estabeleceram um padrão diferente para os produtos oferecidos ao público. Desta forma, poderiam evitar a pirataria: é difícil converter matematicamente uma taxa de 48 kHz para 44.1 kHz. O fato é que no audiovisual a sample rate de 48 kHz colou. Há um fator interessante para que isso tenha ocorrido. A frequência de 48 amostras por segundo é um múltiplo e por isso fecha bem com a taxa de captura de imagem de 24 fotogramas por segundo convencionada pelo cinema. Por isso, se vamos fazer música para vídeo utilizamos a sample rate de 48 kHz ou múltiplos dela. DVDs convencionais são em 48 kHz e os DVD-A (DVD-Audio, que é diferente dos DVDs comuns) são em 96 kHz (primeiro múltiplo de 48). Mas você deve ficar atento às rápidas mudanças das tecnologias de áudio. Em 2018, a empresa Tidal começou a oferecer CDs com a tecnologia MQA (Master Quality Authenticated) que trabalha com taxas de amostragem de 96 kHz.

Por que o 44,1 kHz sobrevive?

É possível que, em breve, o padrão de 44.1 kHz torne-se obsoleto. Afinal, na era do streaming e do processamento, qual o sentido de manter o padrão de 44.1 kHz? São algumas as explicações:

Tradição: CDs são em 44,1 kHz
Inércia: Interfaces de áudio já vem pré-configuradas em 44,1 kHz, placas de som onboard também.
Custo benefício: É necessário mais processamento e espaço em disco para gravar em mais de 44,1 kHz, e a diferença é tão pequena que um ouvido minimamente destreinado ou desacostumado não a ouve.
Banda: Querendo ou não, a internet de altíssima velocidade ainda não é uma realidade mundial. O streaming e o loading precisam ser os mais rápido possíveis.
Aparelhagem de baixa qualidade: Fones de ouvido in-ear, caixas de som de notebook. Se já é difícil ouvir as diferenças de sample rate em caixas de alta qualidade, em fontes sonoras mais simples as diferenças vão quase a zero.
Dificuldades técnicas: Muitos reprodutores só são capazes de reproduzir 44,1 kHz, mesmo hoje.

Sample rate de 88.2 kHz ou 96 kHz vale a pena?

Não há consenso sobre se vale a pena gravar com a sample rate acima dos padrões convencionados de 44.1 kHz e 48 kHz. Uns dizem que as frequências ultra agudas, acima do limite da audição humana, têm um efeito no som que ouvimos. Outros defendem que a ideia de que quanto maior a taxa de amostragem maior a qualidade do áudio é conversa de vendedor de equipamentos. De fato, os dois estudos acima mencionados mostram que qualquer conversão do áudio, mesmo de uma sample rate maior para uma menor, gera perda de qualidade do som. Os algoritmos de conversão das taxas de amostragem podem gerar mudanças de timbre.

Sugestões da casa

Procure fazer seu projeto em uma sample rate que você não vai precisar converter.
Se você for prensar CDs e gravou acima de 44,1 kHz, deixe que a fábrica faça a conversão. O mesmo vale para bit depths (se você gravou em 24 bits, por exemplo).
Se você vai syncar a gravação com um vídeo, grave em 48 kHz.
Jamais converta os audios já gravados para outra sample rate no meio do projeto! Se começou numa sample rate mais baixa do que gostaria, finalize esse projeto assim e lembre de trocar no próximo.
Só converta a sample rate depois de finalizado o projeto e feito o bounce. Se for pra prensar em fábrica, exporte no formato que você gravou e deixe que eles se virem.

Conclusões

A sample rate é a frequência com a qual serão tiradas amostras do sinal analógico para sua digitalização.
A escolha de uma sample rate está diretamente ligada à mídia com a qual você vai trabalhar.
O efeito aliasing é gerado pela interpretação errônea de uma frequência devido a uma taxa de amostragem muito baixa. Para evitá-lo as placas de som vem com um filtro anti-aliasing.
Jitter é um erro de clock no processo de amostragem.
Dither é um ruído utilizado para corrigir imperfeições e finalizar gravações.
Latência é o atraso na reprodução do som. Quanto maior a sample rate menor a latência, porém mais processamento é necessário.
Quando maior a sample mais espaço de disco
As interfaces de áudio e as DAWs trabalham com diferentes taxas de amostragem, normalmente variando entre 44.1 kHz e 192 kHz.

Sample rate : Qual usar? Qual a melhor?