Agora vamos falar sobre equipamentos de áudio que são necessários para uma boa gravação de fala. Vou sugerir equipamentos profissionais, portáteis e de custo acessível. Não pretendo esgotar o assunto: pretendo apenas apontar caminhos que, pelo menos para mim, estão dando certo.
A ideia é ter uma gravação com qualidade suficiente para se fazer análise fonético-acústica da fala. Vou sempre ter em mente equipamentos capazes de gerar arquivos de áudio com qualidade tal, que se pode extrair valores de duração, frequência fundamental e frequência de formantes.
Notebook ou desktop
Geralmente as placas de som do notebook ou do desktop não são boas o suficiente para se obter uma gravação de fala de qualidade. Isso por várias razões. Primeiro, porque a faixa de frequência é reduzida ou a sensibilidade para as diversas frequências é muito irregular. Segundo, porque o som é de baixa intensidade. Terceiro, porque são internas, o que aumenta muito o ruído da gravação [1]. Mas isso não faz mal, porque a interface de áudio externa fará as vezes de placa de som.
O importante é ter um bom processador (no mínimo Intel I3) e boa memória RAM (no mínimo 4 GB) para não ter problemas com lentidão ou travamento da máquina. Se os arquivos de áudio forem armazenados no computador, também é necessário um HD com boa capacidade (500 GB, por exemplo).
A vantagem do notebook sobre o desktop é o fato de ser portátil, o que possibilita gravar em locais diferentes.
Interface de áudio
Interface de áudio é o mesmo que placa de som.
Se você já tentou ligar um microfone comum diretamente na placa de som interna do seu computador, já descobriu que o som fica distorcido, fraco e ruidoso.
A distorção deve-se à faixa de frequência em que a placa opera e/ou à sensibilidade irregular da placa para as diversas frequências. Isso também vale para o microfone comum.
A pouca intensidade do som deve-se à baixa sensibilidade da placa de som e do microfone comum.
O ruído decorre muito do fato da placa de som ser interna, porque ela capta ruídos do funcionamento interno do computador [1]. Por isso é necessário uma interface de áudio externa.
Pré-amplificação
Microfones dinâmicos geralmente necessitam de pré-amplificação. Muitas interfaces de áudio contam com pré-amplificador. É melhor dar preferência para este tipo de interface.
Faixa de frequência
É preciso ficar atento para a faixa de frequência em que a interface opera. É necessário que a faixa de frequência inclua a frequência fundamental e as frequências dos formantes da voz humana levando-se em conta gênero e faixa etária.
- No caso da frequência fundamental, a menor é a da voz masculina, que pode ser de 100 Hz [2]; então a interface deve ter limite inferior a este valor (50 Hz, por exemplo). Não compre uma interface que começa a operar em 100 Hz, porque você vai ter problemas para extrair os valores de F0 em vozes masculinas.
- No caso das frequências dos formantes, o F3 das sibilantes pode chegar a 10.000 Hz; então o limite superior da interface deve ser pelo menos neste valor. Entretanto, se o som for cortado em 10.000 Hz, você provavelmente vai achá-lo insuficiente, porque o sistema auditivo humano capta até 20.000 Hz. Assim, um bom limite superior para a interface é no limiar espectral do sistema auditivo.
Portanto, uma interface adequada para o estudo da voz e da fala precisa operar em torno de 50 e 20.000 Hz.
Número de canais
As interfaces podem ter vários canais. Para quem trabalha apenas com monólogos, um canal é suficiente. Para quem trabalha com diálogos, são necessários dois canais (um para cada microfone).
Alimentação
A alimentação da interface de áudio pode ser feita via USB. Basta conectar o cabo USB da interface de áudio no computador.
É bom adquirir uma interface com “phantom power” (alimentação fantasma), porque é o tipo de alimentação necessária (+48V) para um microfone condensador.
Interface e sistema operacional
Atenção para comprar uma interface de áudio compatível com o sistema operacional do seu computador!
Sugestões
Eu utilizo uma interface de dois canais da M-Audio. O desempenho é bom e o custo é acessível.
- Sugestão de interface com dois canais: M-Audio M-Track.
- Sugestão de interface com quatro canais: M-Audio M-Track Quad.
As três têm resposta de frequência de 20 a 20.000 Hz e pré-amplificador com ganho de 40 dB.
Também existem interfaces de outras marcas (como Avid, Edirol, MOTU, Presonus e Tascam).
Veja aqui maiores informações sobre interfaces de áudio.
Microfone
Faixa de frequência
Novamente, é fundamental atentar para a faixa de frequência em que o microfone opera. Também preferir algo em torno de 50 a 20.000 Hz.
Existem microfones para voz (falada ou cantada) e para instrumentos musicais. Atenção também para este quesito na hora de comprar. A diferença entre eles está na faixa de frequência em que melhor operam (baixas, médias ou altas).
Tipo
O microfone também pode ser dinâmico ou condensador. O circuito interno dos microfones é diferente, o que ocasiona diferença na sensibilidade e na precisão: o condensador já possui um pré-amplificador interno e responde mais uniformemente às diferentes frequências, o que gera um som mais intenso e preciso. Mas é bom lembrar que os microfones condensadores são fisicamente mais sensíveis, o que pode não ser interessante para quem trabalha com crianças. Microfones condensadores têm grande probabilidade de parar de funcionar se caírem no chão, por exemplo. Já os microfones dinâmicos são bem mais resistentes.
Os microfones dinâmicos produzem som de menor intensidade (por isso precisam de pré-amplificador na interface de áudio) e não respondem tão uniformemente às diferentes frequências quanto os microfones condensadores.
Os microfones condensadores são mais sensíveis, ou sejam, têm maior capacidade para captar os sons não apenas da fala, mas também ruídos. Então, se o seu ambiente de gravação não tem isolamento e tratamento acústicos adequados, talvez seja melhor optar por um microfone dinâmico.
Lembre-se que microfones condensadores precisam necessariamente de alimentação especial (+48V ou “phantom power”). Por isso, precisam ser ligados em interface de áudio. Não é possível conectá-los diretamente no computador.
Veja aqui maiores informações sobre o tipo de microfones.
Padrão polar
O microfone pode ser omnidirecional, unidirecional (ou cardioide), bidirecional ou hipercardioide.
- O omnidirecional grava todas (“omni-”) as direções, não importando para onde está direcionado.
- O unidirecional grava apenas uma (“uni-”) direção, ou seja, grava para onde está direcionado.
- O bidirecional grava duas (“bi-”) direções: frente e trás do microfone.
- O hipercardioide grava mais os sons que estão à frente do microfone, mas também grava os sons atrás dele.
Veja aqui um desenho esquemático sobre o padrão dos microfones. É prático aprender a identificar o padrão polar pela representação gráfica.
Qual é a sua necessidade?
Antes de comprar um microfone, tenha claro quais são as suas necessidades.
- Precisa de um microfone muito sensível e preciso? Condensador.
- Precisa de um microfone resistente? Dinâmico.
- Vai gravar só monólogos? Apenas 1 microfone unidirecional.
- Vai gravar diálogos? 2 microfones unidirecionais.
- Vai gravar grupos com várias pessoas? Omnidirecional.
Posicionamento
Não basta ter uma boa interface de áudio e um bom microfone para fazer uma boa gravação. A maneira como se usa o microfone também é importante. Se você vai gravar pessoas que não são profissionais da voz, prepare-se! Pessoas que utilizam a voz profissionalmente (locutores, dubladores, palestrantes, etc.) sabem segurar um microfone e sabem posicioná-lo próximo à boca. Outras pessoas não vão saber fazer isso. Alguns deixam o microfone longe demais da boca, outros chacoalham (!) o microfone enquanto falam, outros continuam gesticulando normalmente com as mãos (como se não tivessem um microfone em uma delas) e as crianças encostam o microfone nos lábios. Instruí-los ajuda, mas não muito…
Sugestões
Na minha prática clínica, utilizo microfone dinâmico unidirecional específico para voz falada. “Dinâmico” pelo fato de ser mais resistente (já caiu no chão várias vezes e não estragou) e “unidirecional”, porque meu interesse é sempre captar uma única fonte sonora. Utilizo um modelo da Shure.
É da Shure o microfone mais vendido do mundo: o SM 58, dinâmico unidirecional. Este microfone é recomendado para voz cantada.
Para voz falada, a Shure recomenda o SM 48 e PG 48, ambos dinâmicos e unidirecionais. O SM 48 tem resposta de frequência entre 55 e 14.000 Hz e o PG 48 entre 70 e 15.000 Hz.
Também tenho o microfone condensador unidirecional Nova da M-Audio, mas confesso que pouco o uso. Primeiro, porque é preciso ter cuidado ao manuseá-lo. Segundo, porque ele é pesado e precisa de um pedestal, o que não é muito prático. Meus pacientes (crianças e adultos) não se acostumaram com ele.
Também existem outras marcas de microfones (como AKG, Behringer, Sennheiser).
Biossegurança
No caso de consultórios de fonoaudiologia, a Vigilância Sanitária recomenda o uso de protetor descartável no bulbo do microfone. Eu utilizo o protetor de fone de ouvido da Pró-Fono. Fundamental utilizar protetor descartável, principalmente com crianças, porque elas facilmente encostam a boca e babam no microfone!
Monitor de áudio
Monitor de áudio é o mesmo que caixa de som.
Você fez suas gravações utilizando interface de áudio e microfone profissionais. Na hora de ouvir, não utilize caixas de som comuns, porque elas apresentam sensibilidade muito irregular às diversas frequências. Por exemplo, elas podem responder melhor às frequências médias e altas e pior nas baixas. Ou podem responder com reforço em frequências baixas. Tudo isso vai distorcer o som que você escuta. Por mais que você esteja fazendo uma análise fonético-acústica, suas decisões não serão baseadas apenas na forma de onda e no espectograma: a análise de oitiva também é importante. Por isso, monitores profissionais ou pelo menos semi-profissionais são necessários.
Faixa de frequência
Novamente, é importante atentar para a resposta de frequência. Você gravou utilizando uma interface de áudio e um microfone com respostas de frequência adequadas à voz falada. Os monitores de áudio também devem ter essa resposta de frequência.
Potência
Em relação à potência, vai depender do que você for fazer. Existem monitores de estúdio (com menor potência, suficientes para uma sala de consultório, por exemplo) e monitores de palco (com maior potência, necessários quando se deseja reproduzir o som em uma sala de aula ou auditório). Para uma sala de consultório, minha experiência diz que 16 W RMS são mais do que suficientes.
Posicionamento
Se você gravar em apenas um canal (mono), apenas posicione as caixas de som na altura das orelhas. Se você gravar em dois canais (estéreo), também atente para que o posicionamento das caixas de som em relação ao ouvinte seja o mais próximo de um triângulo equilátero para melhor percepção da estereofonia.
Sugestão
Uma sugestão é a linha 2.0 da Edifier, como os pares de monitores R 1000 TCN e R 1600 T Plus. Ambos têm resposta de frequência de 55 a 20.000 Hz. O primeiro tem potência de 16W RMS e o segundo de 32W RMS.
Também existem outras marcas de monitores de áudio para estúdio (como Behringer, M-Audio), mas têm maior custo.
Fone de ouvido
As mesmas considerações feitas sobre a importância de se utilizar monitores profissionais de áudio valem para os fones de ouvido. Sistemas profissionais de saída de áudio apresentam resposta mais uniforme em toda a faixa de frequência, o que reduz as distorções sonoras.
Tipo
Os fones de ouvido podem ser classificados em abertos e fechados. Os abertos permitem que o ruído externo seja ouvido normalmente. Já os fechados reduzem essa interferência de 10 a 25 dB.
A qualidade sonora dos fones abertos tende a ser melhor do que dos fechados. Por outro lado, os fones fechados preservam mais a audição do que os abertos, porque o volume pode ser reduzido.
Modelo
O fone também pode ser circumaural ou supra-aural. A espuma do circumaural contorna a orelha, o que proporciona maior conforto. Já a espuma do supra-aural fica em cima da orelha.
Sugestões
Um modelo aberto supra-aural muito utilizado é o Koss Porta Pro.
Um modelo semiaberto circumaural para estúdio é o AKG K77.
Um modelo fechado circumaural para estúdio é o Behringer HPS 5000.
Cabos e conexões
Atenção para cabos e conexões. Cabos e conexões ruins irão introduzir ruídos significativos na sua gravação (por exemplo, cliques de liga e desliga).
Dar preferência para cabos curtos (até 3 m), porque a probabilidade de ruído é menor.
Como conectar
É fácil: basta ligar o microfone e as caixas de som na interface de áudio e a interface de áudio no computador. Veja aqui um exemplo.
Gravador digital portátil
Também existem gravadores digitais portáteis. Geralmente contam com microfone embutido omnidirecional e também com entrada para microfone externo dinâmico.
Não utilizo gravador portátil. Consigo fazer gravações com microfone mesmo com crianças pequenas (elas acham divertido!). Mas, se eu precisasse, tentaria um dos gravadores portáteis da Tascam.
Sistemas com e sem fio
Todas as sugestões apresentadas aqui são de equipamentos com fio. Também existem sistemas sem fio, mas são de maior custo.
Onde comprar
Você deve estar se perguntando por que não está vendo marcas mais conhecidas (Philips, Panasonic, etc). Porque estamos falando de equipamentos profissionais de áudio. Você vai encontrar esses equipamentos em lojas de instrumentos musicais.
A Amazon geralmente não exporta instrumentos musicais para outros países.
Exemplos
Seguem abaixo duas imagens com forma de onda e espectrograma. A primeira imagem resulta de uma gravação com placa de som interna e microfone dinâmico comum. A segunda imagem resulta de uma gravação com interface de áudio e microfone profissional (dinâmico unidirecional).
A primeira diferença é no nível de ruído. Na primeira imagem, há uma grande concentração de ruído acima de 2000 Hz, que pode ser visto tanto na forma de onda, quanto no espectrograma.
A segunda diferença é na intensidade do sinal. Na primeira imagem, a amplitude da forma de onda é muito menor.
Referências
[1] CUNTO, M. (2009). Gravação de voz; um guia para pesquisadores. Vol. I. Clube de Autores.
[2] BEHLAU, M. S.; TOSI, O. & PONTES, P. A. L. (1985). Determinação da frequência fundamental e suas variações em altura (“jitter”) e intensidade (“shimmer”), para falantes do português brasileiro. Acta AWHO, 4 (1), 5-10.