Edição nº 562

Nesta Edição

1
2
3
4
5
6
7
8
9
10
11
12

Jornal da Unicamp

Baixar versão em PDF Campinas, 20 de maio de 2013 a 03 de junho de 2013 – ANO 2013 – Nº 562

Computador ‘fala’ a partir de conversão de textos

Sistema permite aplicação nos âmbitos da robótica e da acessibilidade de pessoas com deficiência

Fala emitida pelo computador a mais próxima possível da voz humana. Foi este o objetivo da engenheira eletricista Sarah Negreiros de Carvalho ao aprimorar a técnica de conversão de textos em fala baseada em uma técnica denominada HMM. Em meio a equações matemáticas e muitos cálculos pesados, a engenheira conseguiu gerar parâmetros que permitiram alcançar melhor qualidade do sinal de fala sintetizado pelo computador a partir da transcrição de textos. Um texto em arquivo PDF, por exemplo, pode produzir o som exato das palavras. “A natureza estatística e paramétrica da técnica de síntese de fala, baseada em HMM, a torna um sistema flexível, capaz de adaptar vozes artificiais, inserir emoções no discurso e obter fala sintética de boa qualidade” afirma Sarah Negreiros.

O estudo desenvolvido na Faculdade de Engenharia Elétrica e de Computação (FEEC), sob orientação do professor Fábio Violaro, está em linha com o contínuo desenvolvimento da tecnologia. Isto porque, segundo a engenheira, é crescente a demanda por sistemas de síntese de fala que sejam capazes de falar como humanos para integrá-los nas mais diversas aplicações. “O sistema possibilita a utilização no âmbito da robótica ou para acessibilidade de pessoas com deficiências. Pode também servir para integrar aplicativos destinados à cultura e ao lazer”, esclarece.

Por enquanto, o sistema gera o som de frases automaticamente apenas para a língua inglesa. O estudo para a língua portuguesa foi possível graças a um banco de falas e etiquetas com a transcrição fonética das palavras elaborado por pesquisadores da Universidade Federal do Rio de Janeiro (UFRJ), em estudos liderados pelo professor Fernando Gil Resende. A partir desse conjunto de etiquetas já pronto, Sarah analisou como os parâmetros estatísticos atuavam nas expressões que representavam matematicamente o funcionamento do trato vocal.

O processo da fala humana compreende dois tipos de sinais, os sonoros e os não sonoros. Os primeiros correspondem aos sons das vogais e de algumas consoantes como a /b/, /d/ e /v/, e são gerados com a vibração das cordas vocais. Eles são periódicos e podem ser modelados por um trem de impulsos. Os sons não sonoros geram a maioria das consoantes para as quais as cordas vocais não vibram, eles são modelados por um sinal ruidoso. A combinação adequada destas duas fontes gera o chamado sinal de excitação. Este sinal precisa ainda passar por um filtro digital, que faz o papel do trato vocal, para ser amplificado e modulado e assim gerar a fala. O estudo desenvolvido na FEEC conseguiu, justamente, chegar aos modelos de duração, espectro e frequência que produzem som de boa qualidade utilizando a síntese baseada em HMM. “Conseguimos as melhores características do filtro e uma melhor forma de modelagem”, explica.

Segundo Sarah Carvalho, ao contrário das técnicas usualmente utilizadas em call center, que não oferecem a possibilidade de se alterar as características do locutor, no estudo proposto, ao mudar os parâmetros estatísticos é possível transformar a voz masculina em feminina ou ainda em voz de criança, por exemplo. Além, é claro, de também permitir incluir emoção no discurso. “Uma voz raivosa, por exemplo, pode ser gerada sem precisar regravar ou alterar o banco de dados de falas”.

Publicação

Dissertação: “Estudo de um sistema de conversão texto-fala baseado em HMM”
Autora: Sarah Negreiros de Carvalho
Orientador: Fábio Violaro
Unidade: Faculdade de Engenharia Elétrica e de Computação (FEEC)

Comentários

Comentário: 

Trabalho em um instituição de educação profissional e estamos acompanhando a evolução das TAs. Gostaria de saber se este sistema já esta disponível para uso, já que nossa intenção é sempre trazer soluções inovadoras para nossos alunos. Obrigada

Comentário: 

Sarah, muito feliz com os resultados desse trabalho. Parabéns!

Comentário: 

O aplicativo Adobe Acrobat 8 professional que cria arquivos pdf, altera arquivos pdf entre outras funções semelhantes, na aba visualização – ler em voz alta, tem-se fala emitida pelo computador em português e bem próxima da voz humana.