Artigos e Novidades

Aplicativo de celular

A melhora da percepção e do controle da taxa de elocução (popularmente, “velocidade de fala”) é um dos alvos da terapia dos distúrbios da fluência (gagueira e taquifemia). O maior controle da taxa de elocução, seja no sentido de lentificação, seja no sentido de menor variação, podem ser de grande valia para a melhora da fluência da fala.

A engenheira elétrica Vered Aharonson & colaboradores publicaram neste mês de março um artigo [1] que relata o desenvolvimento e a validação de um aplicativo de celular para monitoramento da taxa de elocução. O aplicativo foi pensado para ser utilizado pelos pacientes para a prática de fala fora do consultório. O aplicativo apresenta design amigável para o usuário, com feedback sobre a taxa de elocução em tempo real. O algoritmo estima o número de fones produzidos em uma gravação de fala.

Abaixo vamos ver como o aplicativo foi desenvolvido, testado e validado. Por enquanto, ele está disponível apenas para falantes de hebraico.

 

Sistema do aplicativo

O algoritmo funciona da seguinte forma:

  1. A fala é inicialmente captada pelo microfone do celular. Isso já implica grande perda de sinal, porque os telefones utilizam faixa de amostragem de 8000 Hz, o que significa que frequências acima de 4000 Hz são excluídas (saiba mais sobre as taxas de amostragem de telefone, rádio e CD, no texto “Gravação de fala (III)”). Por isso, a primeira ação do algoritmo é reforçar o espectro através de um filtro de alta frequência.
  2. O sinal filtrado é então segmentado em trechos de 32ms, com sobreposição de 10ms entre os trechos para se fazer a suavização dos dados.
  3. Os trechos segmentados são submetidos à análise de Fourier para cálculo das frequências dominantes em cada trecho.
  4. O espectro resultante de frequências é transformado para escala Mel, uma escala logarítmica que relaciona frequências fundamentais com a percepção auditiva dessas frequências.
  5. Na escala Mel, os dados são submetidos à transformada discreta de cosseno para compressão do sinal.
  6. São então extraídos dez coeficientes da frequência Mel e suas respectivas derivadas. São as derivadas que irão indicar pontos de variação de frequência, os quais, posteriormente, serão candidatos para sinalizar transição entre fones.
  7. É calculada a transição espectral para cada trecho de 32ms. Se a diferença espectral entre dois trechos sucessivos for pequena, esses dois trechos são compreendidos como fazendo parte do mesmo fone. Por outro lado, se a diferença espectral for grande, o intervalo entre os trechos é um forte candidato para sinalizar fronteira entre fones.
  8. A última ação do algoritmo é calcular a significância das medidas de transição espectral. Quando o resultado aponta grande diferença na frequência de um trecho para o seguinte, é estabelecida uma fronteira entre fones. O resultado final é o número de fronteiras por minuto, que é a taxa de elocução.

Para fornecimento de feedback em tempo real, o sinal de fala é processado em blocos de 10s, sendo obtido o número de fronteiras para cada bloco.

O algoritmo foi desenvolvido em Matlab e a implementação em tempo real é via Java. O algoritmo funciona no sistema Android (smartphones e tablets).

A tela do celular (Fig. 2 do artigo) mostra o tempo total de fala e o número total de fronteiras entre fones por minuto. A tela é atualizada periodicamente, com exibição dos resultados parciais, o que possibilita ao usuário acompanhar a flutuação de sua taxa de elocução ao longo do tempo. A linha que exibe os resultados parciais pode ser nas cores verde, amarela ou vermelha, representando taxa de elocução lenta, média ou rápida, respectivamente.

As aplicações foram programadas com um plugin específico do Android (Eclipse) e a interface gráfica foi feita no Photoshop. O servidor web foi desenvolvido na linguagem PHP. Segundo os autores, a escolha das plataformas de implementação baseou-se no quanto são utilizadas pelos usuários e no baixo custo.

O sistema como um todo consiste em duas aplicações: uma aplicação para o paciente (em smartphone) e outra aplicação para o fonoaudiólogo (em tablet). Todas as gravações e suas análises são armazenadas em nuvem e disponibilizadas para o fonoaudiólogo acompanhar os treinos do paciente.

 

Validação do aplicativo

Foi utilizado um texto foneticamente balanceado em hebraico como material para avaliação e validação do algoritmo do aplicativo. O texto era composto por seis frases, tendo 280 fones ao todo. O texto foi lido em voz alta por cinco homens e cinco mulheres, entre 22 e 30 anos, falantes nativos do hebraico e sem distúrbios de comunicação.

Os sujeitos receberam o texto impresso em papel e um celular para gravação da leitura. Foram feitas três leituras: na taxa habitual de elocução do sujeito, em uma taxa mais lentificada e em uma taxa mais acelerada. Os sujeitos foram apenas instruídos a produzir essas diferentes taxas de elocução, não havendo modelamento (ou seja, os sujeitos não ouviram gravações com exemplos de falas lentas ou rápidas).

A contagem de fronteiras entre fones efetuada pelo aplicativo foi comparada com a contagem de fones efetuada por dois ouvintes profissionais. Um ouvinte era linguista e o outro era cientista da fala. Ambos avaliaram as amostras duas vezes, cada avaliação com intervalo de uma semana e com excelente índice de concordância intra-avaliador.

Os resultados foram muito promissores.

A comparação entre a contagem de fronteiras realizada pelo algoritmo off-line (no Matlab) e pelo algoritmo online (no sistema Android) foi idêntica. O algoritmo online forneceu resultados parciais com atrasos de 3s.

A comparação entre a contagem de fronteiras realizada pelo algoritmo e pelo ouvinte profissional mais consistente apresentou discrepância de, no máximo, 10%. Os erros provenientes da comparação entre o desempenho do algoritmo e o desempenho do ouvinte resultaram da contagem adicional de fronteiras pelo algoritmo. Em relação ao sexo, a discrepância sempre foi maior para a fala feminina. Em relação às diferentes taxas, a discrepância foi maior para a fala lentificada.

A análise do número de fones produzidos nas diferentes taxa de elocução forneceu dados interessantes (Fig. 5 do artigo). Para a taxa rápida de fala, todos os dez sujeitos produziram cerca de 14 fones por segundo. Para a taxa habitual de fala, a média foi de 12 fones por segundo. Entretanto, para a fala com taxa espontânea, dois sujeitos falaram mais vagarosamente e quatro sujeitos falaram mais rapidamente (para esses quatro sujeitos, praticamente não houve diferença entre a taxa habitual e a taxa rápida de fala). Embora a análise estatística tenha apontado diferenças significativas entre as taxas lenta e habitual e entre as taxas habitual e rápida de fala quando os dados foram aglomerados, essas diferenças provavelmente não resultaram dos quatro sujeitos que falam habitualmente de forma mais rápida, porque eles apresentaram pouca habilidade para variar a taxa de elocução. Essas diferenças provavelmente resultaram do desempenho de outros quatro sujeitos que variaram a taxa de elocução com muita habilidade.

Os autores frisam que o algoritmo ainda necessita de ajustes. Um desses ajustes refere-se à maior quantidade de erros para taxas lentas de fala. Ou seja, o sujeito está falando de forma lentificada e o algoritmo informa que ele está falando com taxa média. Esses erros resultaram de reorganizações que os sujeitos fizeram para produzir fala lentificada (como inserção de preenchedores, inspirações ruidosas, pigarreamentos), que foram contabilizados como fronteiras fônicas pelo algoritmo. Outro ajuste refere-se à maior quantidade de erros para a fala feminina. Ou seja, o algoritmo tende a informar que as mulheres falam mais rapidamente do que de fato fazem. Ainda outro ajuste refere-se à validação do algoritmo para outras línguas, além do hebraico. Finalmente, o último ajuste refere-se à validação do algoritmo para sujeitos com distúrbios da fluência (tanto gagueira, quanto taquifemia) e para outras faixas etárias (crianças e adolescentes).

 

O sistema desenvolvido por Vered Aharonson & colaboradores é muito bem-vindo para a fonoterapia de gagueira e taquifemia. Com ele, os pacientes podem avaliar e treinar sua taxa de elocução em situações diárias de comunicação e não apenas no ambiente clínico. Além disso, o fonoaudiólogo pode acompanhar, à distância, o número de treinos e o desempenho dos pacientes.

 

Referência

[1] Aharonson, V.; Aharonson, E.; Raichlin-Levia, K.; Sotzianuc, A.; Amird, O. & Ovadia-Blechman, Z. (2017). A real-time phoneme counting algorithm and application for speech rate monitoring. Journal of Fluency Disorders, 51, pp. 60-68.