Síntese de Voz - Revista .Net Magazine 96

Nesse artigo abordaremos o desenvolvimento de uma solução baseada em síntese de voz em português utilizando a linguagem de programação C#. Também será demostrado como utilizar a Microsoft Speech Platform SDK.

De que se trata o artigo

O artigo trata do PaaS e seus conceitos e, como pode atingir uma empresa, mostrando como uma equipe de TI pode se preparar para sua utilização e quais cuidados uma empresa deve tomar antes de utilizar o PaaS.

Em que situação o tema é útil

Quando se deseja entender e até mesmo aplicar o modelo de negócio proposto pelo PaaS. Desta forma, será possível mostrar os reais benéficos para os departamentos de TI, por exemplo,

PaaS e SaaS – Entenda sobre o Saas e Paas

A ideia é apresentar o SaaS a partir da perspectiva do consumidor corporativo: como os departamentos de TI podem se beneficiar da adição de aplicativos SaaS ao seu portfólio de serviços? Quais são as implicações da adição de aplicativos hospedados externamente ao ambiente computacional da empresa? O que será preciso fazer para se preparar para o SaaS? Assim, neste artigo iremos abordar todos esses pontos e examinar alguns casos especiais que podem fazer sentido para o seu departamento e até levá-lo a se tornar um provedor de SaaS, como um consumidor.

Dentro dos conceitos da inteligência artificial existe uma área denominada de processamento de voz, que foi desenvolvida com intuito de permitir ao usuário interagir com o computador através da fala. O processamento de voz aplicasse em algumas áreas, entre elas, a que abordaremos neste artigo, a síntese de voz. Vamos abordar a forma mais usada e conhecida que é representada pela sigla TTS (Text-To-Speech) que em português significa “Texto para Fala” e, basicamente, é o processo de conversão de um texto em ondas sonoras que possam ser compreendidas por nós humanos.

Desde o surgimento das tecnologias de processamento de voz, sua utilização não era muito comum, devido a alguns fatores como dificuldade de implementação, alto custo e baixa confiabilidade. Hoje temos uma realidade totalmente diferente que tornou-se possível graças ao avanço no desenvolvimento de computadores com maior poder de processamento, mais velozes, novas abordagens e tecnologias na área de desenvolvimento de sistemas. Fatores como esse foram indispensáveis na criação das tecnologias que temos hoje como: smartphones, tablets, computação nas nuvens, sistemas complexos de reconhecimento facial, reconhecimento de voz, síntese de voz, entre outros.

Com isso, surge também a necessidade de soluções em software cada vez mais sofisticadas e que venham facilitar a vida dos usuários, cito como exemplo um dispositivos muito conhecido e utilizado hoje, o GPS (Global Position System), a maioria desses aparelhos utiliza a fala para nos guiar, possibilitando que o motorista desprenda atenção total ao transito enquanto o sistema passa as coordenas por meio da fala.

Você deve estar se perguntando, mas como isso é possível, há uma maneira de fazer o computador falar? Sim! E a resposta para essa pergunta está baseada nos conceitos de Síntese de voz, no exemplo do GPS, em sua grande maioria, esses aparelhos utilizam a tecnologia de síntese de voz para transformar as coordenadas obtidas pelo satélite em uma linguagem conhecida por nós como fala.

No decorrer desse artigo apresentarei as tecnologias de processamento de voz desenvolvidas pela Microsoft e também vamos colocar em prática esses conceitos e desenvolver uma aplicação utilizando os recursos dessa plataforma por meio da plataforma .NET e também utilizando a linguagem de programação C#.

Voz x Fala

No decorrer da introdução você deve ter se deparado com essas duas palavras: Voz e Fala, porém qual é a relação ou distinção entre elas, veremos a seguir.

A voz humana é a principal ferramenta de comunicação e é resultado de um completo processo, cujo mecanismo envolve o sistema nervoso central, o sistema fonador e o sistema respiratório. Não podemos deixar de considerar que mesmo que estejamos efetuando a produção de voz por meio de um sistema computacional, a mesma foi gravada por um humano, o computador tem apenas a função de utilizar os conceitos da síntese de voz para reproduzi-la, seja por processo de concatenação, formantes ou qualquer outro existente. Já a fala é um conjunto de sons articulados, que também é essencial no processo de comunicação e está diretamente ligada a voz.

Microsoft Speech Platform SDK

É uma plataforma baseada em processamento de voz desenvolvida pela Microsoft e permite utilizar funções de reconhecimento e síntese de voz. Esse SDK passou a compor o .NET Framework a partir da versão 3.0 e foi resultado de anos de pesquisa e aperfeiçoamento. Possui um sintetizador que tem seu funcionamento baseado em um banco de dados de segmentos sonoros criados a partir de horas e horas de discursos gravados. A eficácia do “back end” depende de quão boa é a seleção dos segmentos sonoros apropriados para a entrada informada e executá-los suavemente.

As principais funções que estão disponíveis para trabalhar com processamento de voz são: " [...] continue lendo...

Artigos relacionados