Gravação de fala (III)

jul 30, 2012 | por Sandra Merlo | Tecnologia de fala

PrintAgora vamos para a última parte dos procedimentos de gravação de fala.

A primeira é preparar o ambiente de gravação, realizando isolamento e/ou tratamento acústico.

A segunda implica possuir os equipamentos profissionais de áudio.

A terceira e última refere-se à configuração adequada dos parâmetros de captura no software. Caso contrário, a gravação deixa a desejar.

 

Software

É preciso ter um software de análise fonético-acústica. Eu utilizo o “Praat: doing phonetics by computer”. “Praat” quer dizer “fala” em holandês. Esse software foi desenvolvido por Paul Boersma e David Weenink, foneticistas da Universidade de Amsterdã. O Praat tem sido cada vez mais utilizado em pesquisa básica e clínica nas áreas de linguística e fonoaudiologia.

No Praat, é possível analisar tanto a forma de onda, quanto o espectograma do sinal de fala. Diversas medidas podem ser extraídas: duração, frequência fundamental, frequência de formantes, jitter, shimmer, etc. Além disso, é possível confeccionar e rodar scripts, os quais costumam ser partilhados por pesquisadores e clínicos do mundo todo. Também é possível trabalhar com síntese de fala.

O Praat funciona em Windows, Mac, Linux. O download é totalmente gratuito. Novas atualizações são constantemente disponibilizadas.

Outros softwares da área podem ser vistos aqui.

 

Número de canais

“Mono” significa um canal, “estéreo” significa mais de um canal.

Eu sempre gravo monólogos. Então, sempre utilizo gravações em mono.

Mas, se você trabalha com diálogos, pode gravar a fala de um sujeito em um canal e a fala do outro em outro canal, utilizando dois microfones unidirecionais. Assim você pode analisar a fala de cada sujeito separadamente.

 

Som analógico e som digital

O sinal acústico produzido pelo sujeito é contínuo (analógico). Mas o sinal digital, que será obtido com a gravação, não é. “Digital” se refere a dígito, número. Que números? Zeros e uns, que são os números utilizados pelo computador. Assim, o som digital é uma sequência numérica discreta de zeros e uns. Por isso, é preciso saber especificar as características da digitalização para que o som gravado tenha qualidade mínima. Ele nunca vai possuir tantas informações quanto o som analógico, mas, dependendo das características da digitalização, a perda de informação passa despercebida.

 

Taxa de quantização (bit rate)

 

O que é

A taxa de quantização determina os níveis de intensidade do som digital.

As variações de intensidade do sinal analógico ocasionam variações na tensão elétrica dos equipamentos eletrônicos. A sensibilidade dos equipamentos para essas variações de tensão depende do número de bits em que eles operam.

“Bit” vem de binary digit (“dígito binário”, ou seja, zero ou um). Um sistema binário é qualquer sistema que opere com apenas dois valores (sim ou não, verdadeiro ou falso, tudo ou nada, etc.). Como os equipamentos eletrônicos operam somente com as situações de tensão elétrica “ligada” ou “desligada”, o sistema natural de numeração é o binário (zero para “desligado” e um para “ligado”).

O número de bits dos equipamentos eletrônicos é sempre em relação à base binária (base 2). Assim:

  • Se houver apenas 1 bit, haverá apenas 2 níveis de intensidade (21 = 0 ou 1).
  • Se houver 2 bits, haverá 4 níveis de intensidade (2= 00, 01, 10 ou 11). Veja aqui um exemplo gráfico. Veja que a onda fica excessivamente quadrada.
  • Se houver 4 bits, haverá 16 níveis de intensidade (24 = 0000, 0001, 0010, 0011, 0100, 0101, 0110, 0111, 1000, 1001, 1010, 1011, 1100, 1101, 1110 ou 1111).
  • Se houver 8 bits, haverá 256 níveis de intensidade (28).
  • Se houver 16 bits, haverá 65.536 níveis de intensidade (216).
  • Se houver 24 bits, haverá 16.777.216 níveis de intensidade (224).
  • Se houver 32 bits, haverá 4.294.967.296 níveis de intensidade (232).
  • Se houver 64 bits, haverá 18.446.744.073.709.551.616 níveis de intensidade (264).

Portanto, os níveis de intensidade dependem diretamente da quantidade de bits. Quanto maior a quantidade de bits, mais fiel é o som digital em relação ao som analógico original.

 

Relação sinal-ruído

A taxa de quantização também é responsável pela relação sinal-ruído: 1 bit equivale a uma relação sinal-ruído de 6 dB, ou seja, o sinal tem 6 dB a mais de intensidade em comparação ao ruído.

Assim, um som de 8 bits tem uma relação sinal-ruído de apenas 48 dB. No caso de uma gravação de fala, significa que a fala tem 48 dB a mais de intensidade em comparação ao ruído. Para uma aplicação de pesquisa ou clínica, é pouco. Mas é o padrão em ligações telefônicas.

Uma gravação de 16 bits vai apresentar uma relação sinal-ruído de 96 dB. Já melhora bastante: a fala tem 96 dB a mais de intensidade em comparação ao ruído. Este é o mínimo para pesquisa ou clínica. Veja aqui um exemplo gráfico das diferentes relações sinal-ruído.

Na minha opinião, 16 ou 24 bits já são taxas de quantização boas. Mas as versões mais atuais do Praat são capazes de quantizar em 32 ou 64 bits.

Mas atenção: não adianta nada você escolher uma taxa de quantização de, por exemplo, 24 ou 32 bits no software, se o seu equipamento de áudio não for capaz de operar com esses níveis de quantização também. Se sua interface de áudio e seu microfone operam em 16 bits, você não conseguirá taxa de quantização maior apenas regulando o software.

 

Clipping

Atenção também para o fenômeno de clipping (“corte”). Se a taxa de quantização for insuficiente para representar o som analógico adequadamente, o sinal será cortado quando ultrapassar o limite superior dos níveis de quantização. Isso vai causar distorção no som digital.

As interfaces de áudio geralmente tem um led específico para clipping (veja neste modelo da M-Audio, por exemplo). Se você vir que a luz do led liga com frequência, é bom aumentar o número de bits do som que está sendo gravado. Veja aqui um exemplo gráfico de clipping.

Na minha experiência, a taxa de 16 bits ativa muito o clipping. Por isso, prefiro a taxa de 32 bits, que resolve o problema.

 

Erro de quantização

Todo som digital tem erro de quantização. O que isso quer dizer? As variações da tensão elétrica de entrada são aproximadas para o nível de quantização mais próximo. Assim, a representação da intensidade sonora nunca é exata, mas aproximada. Esse é o erro de quantização. Veja aqui um exemplo gráfico. Com o aumento da resolução em bits, o erro de quantização diminui, mas nunca desaparece.

 

Taxa de amostragem (sampling rate)

 

O que é

A taxa de amostragem determina a frequência com que são extraídas amostras do som analógico. O intervalo entre as amostras é fixo (série temporal clássica). Veja aqui um exemplo gráfico.

A frequência com que são extraídas as amostras do sinal de entrada determina a maior frequência que está presente no som digital.

 

Como determiná-la

Antes de determinar a taxa de amostragem da gravação, é preciso saber qual é a maior frequência desejada.

Para analisar a voz falada, precisamos captar no mínimo até 10.000 Hz, porque o F3 das sibilantes pode chegar a este valor. Mas, como o sistema auditivo humano capta até 20.000 Hz, cortar em 10.000 Hz pode soar insuficiente para o ouvido e afetar as avaliações de oitiva que serão posteriormente realizadas. Então, vou utilizar 20.000 Hz como parâmetro.

Uma onda de 20.000 Hz de frequência tem período de 0,00005 segundo (5 x 10-5 s). Lembrando que frequência e período são inversos: f = 1/T.

A quantidade mínima de pontos para se representar uma reta são dois, certo? O mesmo vale para uma onda: são necessários pelo menos dois pontos para minimamente representá-la.

Então, para representar uma onda com período de 0,00005 segundo, é preciso uma taxa de amostragem que “passe” pelo menos duas vezes pela onda. Se a taxa de amostragem for a cada 0,00005 segundo, haverá somente uma amostra. Mas, se a taxa de amostragem for a metade do período, ou seja, a cada 0,000025 segundo (2,5 x 10-5 s), então haverá duas amostras. O período de 0,000025 segundo corresponde à frequência de 40.000 Hz.

Assim, a taxa de amostragem deve corresponder pelo menos ao dobro da maior frequência desejada. Este é o Teorema de Nyquist. O nome do teorema é uma homenagem ao engenheiro sueco naturalizado americano, Harry Nyquist.

Novamente, atenção para as especificações da sua interface de áudio e microfone. Não adianta você optar por uma taxa de amostragem de 44.100 Hz, se sua interface de áudio e seu microfone não operam nesta faixa de frequência. O microfone que eu utilizo, por exemplo, capta até 14.000 Hz; então utilizo taxa de amostragem de 32.000 Hz.

As taxas de amostragem mais frequentes são: 8.000, 11.025, 22.050, 32.000, 44.100, 48.000 e 96.000 Hz.

 

Aliasing

“Alias” quer dizer suposto. O fenômeno de aliasing ocorre quando se supõe estar lidando com uma certa frequência, mas ela é falsa. Isso ocorre quando se tenta amostrar uma frequência maior do que a de Nyquist.

Por exemplo, com a taxa de amostragem de 22.050 Hz, a frequência de Nyquist é 11.025 Hz. Ou seja, não serão registradas frequências acima de 11.025 Hz. Mas essas frequências existem na fala (as frequências de ressonância tendem ao infinito). O que acontece com as frequências de 12.000 até 20.000 Hz, por exemplo? Elas serão rebatidas para frequências mais baixas. Para descobrir quais, basta aplicar a fórmula:

f’ suposta = (frequência de amostragem) – (frequência acima da de Nyquist)

f’1 = 22.050 – 12.000 = 10.050 Hz
f’2 = 22.050 – 13.000 = 9.050 Hz
f’3 = 22.050 – 14.000 = 8.050 Hz
f’4 = 22.050 – 15.000 = 7.050 Hz
f’5 = 22.050 – 16.000 = 6.050 Hz
f’6 = 22.050 – 17.000 = 5.050 Hz
f’7 = 22.050 – 18.000 = 4.050 Hz
f’8 = 22.050 – 19.000 = 3.050 Hz
f’9 = 22.050 – 20.000 = 2.050 Hz

Um falso reforço entre 2.000 e 10.000 pode ser prejudicial para a análise dos meus dados. Uma solução é aumentar a taxa de amostragem para 32.000 ou 44.100 Hz, por exemplo. Não impede o aliasing de acontecer, mas o joga para bem longe da faixa de frequência em que costumo trabalhar.

Com taxa de amostragem de 32.000 Hz, a frequência de Nyquist é de 16.000 Hz. Mas, como meu microfone capta até 14.000 Hz, a máxima frequência presente nos dados é esta. Então, a partir daí, já posso considerar como aliasing. Com uma taxa de amostragem maior, o aliasing passa a se concentrar em regiões superiores do espectro, não interferindo mais na minha análise de dados:

f’1 = 32.000 – 15.000 = 17.000 Hz
f’2 = 32.000 – 16.000 = 16.000 Hz
f’3 = 32.000 – 17.000 = 15.000 Hz
f’4 = 32.000 – 18.000 = 14.000 Hz
f’5 = 32.000 – 19.000 = 13.000 Hz
f’6 = 32.000 – 20.000 = 12.000 Hz

O fenômeno do aliasing é outra razão para se utilizar taxas de amostragens maiores do que 22.050 Hz, além do fato de que, neste amostragem, a frequência de Nyquist está abaixo do limiar espectral do sistema auditivo humano.

A aplicação de taxas de amostragens maiores, com o intuito de se reduzir o fenômeno de aliasing, é chamada de “oversampling”.

Veja aqui um exemplo gráfico de aliasing.

 

Comparações

Vamos comparar os parâmetros de digitalização do telefone, do rádio e do CD [1].

  • O telefone opera com 8.000 Hz, 8 bits, mono.
  • O rádio opera com 22.050 Hz, 16 bits, mono.
  • O CD opera com 44.100 Hz, 16 bits, estéreo.

Em aplicações de pesquisa ou clínica, a taxa de amostragem mínima deve ser de 32.000 Hz e a taxa de quantização mínima deve ser de 16 bits [1]. Parâmetros maiores são bem-vindos.

Sempre lembrar do Teorema de Nyquist: a máxima frequência presente nos dados será a metade da taxa de amostragem.

Outras informações aqui.
Tendo bom isolamento e tratamento acústicos no ambiente, equipamentos profissionais de áudio e sabendo determinar os atributos adequados no software fonético-acústico, a gravação de fala será de boa qualidade.

Encerro aqui esta série de posts sobre gravação de fala.

 

 

Referência

[1] CUNTO, M. (2009). Gravação de voz; um guia para pesquisadores. Vol. I. Clube de Autores.