Comandos de Voz em Aplica��es Windows 8

Fique por dentro

Hoje em dia, principalmente devido ao avanço nos dispositivos m�veis, o reconhecimento de voz em aplicaç�es tem se tornado uma realidade. Com a presença massiva de microfones e alto-falantes nos dispositivos, � muito interessante utilizar reconhecimento e s�ntese de voz em aplicaç�es. Para isso, o Bing Speech � uma excelente opç�o, e muito simples de ser utilizado em aplicaç�es Windows 8 e Windows Phone 8.

Ele � dividido em duas APIs b�sicas: uma para reconhecimento, e outra para s�ntese de voz, sendo a primeira baseada em um web service e a segunda sendo baseada em streams de �udio, criadas a partir de strings. Esse artigo apresenta essa API e ensina como utiliz�-la para criar texto a partir da fala (reconhecimento de voz) e fazer a aplicaç�o fornecer feedbacks de �udio ao usu�rio (s�ntese de voz).

Atualmente, temos visto um avanço muito grande em tecnologias que, at� poucos anos atr�s, n�o eram nem sequer cogitadas. Os avanços na Intelig�ncia Artificial foram muitos na �rea de reconhecimento e s�ntese de voz, o que faz com que essa tecnologia nem seja tratada mais como um conceito de IA, j� tendo se desvinculado e se tornado um campo totalmente independente.

As possibilidades que os dispositivos �inteligentes� oferecem s�o muitas e � preciso que o desenvolvedor saiba utiliz�-las para criar a melhor experi�ncia poss�vel para os usu�rios.

Nesse contexto, o Windows 8 traz uma tecnologia que vem se consolidando desde o seu lançamento e tem atra�do os olhares dos usu�rios ao redor do mundo. Isso se d� pelo fato de ser uma tecnologia, visualmente falando, extremamente atrativa ao usu�rio comum. Al�m disso, se trata de um sistema muito simples de ser utilizado, muito intuitivo.

Para o desenvolvedor, o Windows 8 tamb�m traz uma s�rie de benef�cios, principalmente a partir da Windows Store, onde � poss�vel comercializarmos aplicaç�es com todos os usu�rios da plataforma.

Com o aumento do poder de processamento dos dispositivos, cada vez mais os usu�rios tem buscado elementos que melhorem sua experi�ncia ao utilizar aplicaç�es. Pensando nisso, o Bing oferece uma s�rie de APIs e controles que auxiliam os desenvolvedores na hora de aplicar essas tecnologias �s suas aplicaç�es.

Um deles � o Bing Speech Control, controle destinado � adiç�o de comandos, reconhecimento e s�ntese de voz em aplicaç�es Windows 8 e Windows Phone 8. Trata-se de um controle bastante simples de ser utilizado, e � poss�vel criarmos aplicaç�es extremamente ricas tratando de assuntos como a navegaç�o atrav�s de comandos de voz, entre outros elementos interessantes.

Reconhecimento de discurso

O reconhecimento de discurso, ou Speech Recnognition, � a capacidade de traduç�o da fala em texto. Trata-se de um campo que at� pouco tempo atr�s estava nos braços da Intelig�ncia Artificial, e que hoje em dia � um campo de estudos independente. � muito comum vermos, em salas de aula ao redor do Brasil e do mundo, professores ditando conte�do para seus alunos.

O reconhecimento de voz funciona dessa forma: a diferença � que o usu�rio est� ditando para o dispositivo. A utilizaç�o dessa tecnologia inclui operaç�es presentes em diversos dispositivos modernos, como chamadas por voz, pesquisa, entrada de dados e aviaç�o. � um conceito que leva diretamente a outro, muito utilizado em segurança de sistemas de informaç�o, que � o reconhecimento de voz, ou Voice Recognition (BOX 1).

BOX 1. Voice Recnognition

O reconhecimento de voz � uma aplicaç�o bastante interessante da tecnologia de Speech Recognition, que diz respeito muito mais � segurança de sistemas de informaç�o do que qualquer outra coisa. � um conceito que trata da identificaç�o das pessoas atrav�s da voz das mesmas.

Todos sabem que cada pessoa possui uma tonalidade de voz �nica, embora muitas tenham vozes muito parecidas. Para n�s, pode ser bastante complicado identificarmos a pessoa apenas atrav�s de sua voz em alguns casos, mas os computadores possuem a capacidade de distinguir mesmo vozes muito similares.

� um conceito que � bastante confundido com o conceito de reconhecimento de discurso, que � respons�vel por identificar o que est� sendo dito, e n�o quem est� dizendo.

As tecnologias atuais de reconhecimento de discurso podem ser aplicadas em diversas �reas, começando pela sa�de, onde surge como um meio de facilitar a escrita de relat�rios m�dicos, prescriç�es, entre outros, at� telefonia e aviaç�o, onde pode ser utilizado nos sistemas de controle.

Algumas dessas aplicaç�es podem trazer problemas na utilizaç�o dessa tecnologia, devido a barulhos externos. Para isso, muitas vezes s�o utilizados microfones especiais, espec�ficos para detectar determinadas frequ�ncias, e, com isso, eliminar os ru�dos da comunicaç�o.

Speech Recognition � baseado em modelos de linguagem, ou Language Models. Esses modelos nada mais s�o que distribuiç�es de probabilidade atrav�s de sequ�ncias de caracteres ou palavras.

Em outras palavras, se trata de encontrar a sequ�ncia de palavras mais prov�vel, dado o som que foi captado. Isso � baseado no Teorema de Bayes, com algumas alteraç�es, conforme mostra a Figura 1, onde S* � a sentença poss�vel e O � o modelo ac�stico do sistema. O objetivo �, baseado em uma evid�ncia (o som observado), definir qual hip�tese � mais prov�vel entre um conjunto de informaç�es que o sistema possui.

At� certo ponto, conforme o conjunto aumenta, a performance do sistema de reconhecimento tamb�m. Por�m, chega um ponto em que o leque de opç�es aumenta tanto que a taxa de erro começa a crescer muito, o que diminui a capacidade do sistema. Por isso, � importante definir com precis�o o tamanho do conjunto de teste sobre o qual a distribuiç�o de probabilidades ser� calculada.

Por exemplo, ao receber um som, o sistema poder� compar�-lo para definir a probabilidade de o som ser �Quando ir para a praia� e �Quando cair na gandaia�, entre outras frases similares.

Figura 1. Teorema de Bayes aplicado ao Reconhecimento de Discurso

A performance de sistemas de reconhecimento de discurso normalmente s�o definidas em termos de qualidade e velocidade. A velocidade do sistema � importante, pois nenhum usu�rio gosta de esperar muito tempo para obter um resultado, em qualquer meio."

[...] continue lendo...

Comandos de Voz em Aplica��es Windows 8

Esse artigo apresenta a API de reconhecimento de voz e ensina como utilizá-la para criar texto a partir da fala (reconhecimento de voz) e fazer a aplicação fornecer feedbacks de áudio ao usuário (síntese de voz).

Artigos relacionados