Os computadores estão muito perto de entender o que você está dizendo, assim como outro ser humano poderia, mesmo que eles ainda não saibam sobre o que você está falando.

"O reconhecimento de fala está realmente perto de alcançar a paridade com os humanos, nos próximos três anos", disse Xuedong Huang, cientista chefe de fala da Microsoft, ao techradar pro..

"Se pudermos atingir esse objetivo, será um importante marco para a civilização. A linguagem é algo que nós, humanos, entendemos e dominamos. No momento em que um computador pode transcrever sua conversa pelo telefone quase tão bem quanto seres humanos é um marco importante para a IA." E para a conversa típica por telefone, ele acredita que chegaremos lá em três anos - pelo menos em termos de reconhecimento do que está sendo dito.

"A transcrição é diferente do entendimento; o entendimento é uma história diferente", ele adverte. "Para entender a mensagem, a sutileza do que está sendo dito está muito distante. Para entender a intenção e o significado, ainda temos um longo caminho a percorrer."

Xuedong Huang mostrando parte do design por trás do kit de ferramentas de aprendizagem profunda de código aberto da Microsoft

Progresso constante

Ele está trabalhando em reconhecimento de fala há mais de 30 anos, e todo ano, ele diz, ele viu melhorias consistentes. Os pesquisadores de referência que usam para medir a precisão estão fazendo uma transcrição de duas pessoas falando ao telefone e, a cada ano, ele vê a taxa de erro cair 20% em relação ao ano anterior..

Graças à aprendizagem profunda, os melhores sistemas, como o da Cortana, agora estão cometendo apenas o dobro dos erros que os humanos. "O erro de transcrição é de cerca de 8% agora; é cerca de duas vezes maior do que erro humano, que é de cerca de 4%. Se conseguirmos manter uma redução de 25% todos os anos - bem, você faz as contas! Espero que os últimos 4% sejam não é muito difícil, e nos próximos três anos podemos conseguir isso ".

Os recentes avanços no reconhecimento de fala se resumem a uma técnica relativamente nova de aprendizado de máquina, aprendizado profundo.

"O aprendizado de máquina como um todo é importante, mas o aprendizado profundo tem sido fundamental para essas melhorias", explica Huang. Agora a Microsoft está fazendo o Computational Network Toolkit (CNTK) que ele usa para construir sistemas como o reconhecimento de voz da Cortana disponível gratuitamente como código aberto no GitHub..

"Acreditamos que o trabalho que estamos fazendo internamente pode beneficiar toda a comunidade. Se você tiver melhores ferramentas e melhores receitas, melhores pratos serão preparados. Acreditamos que as ferramentas que estamos compartilhando podem acelerar o progresso da IA".

A CNTK esteve anteriormente disponível para pesquisadores acadêmicos, para projetos não comerciais através do site Codeplex - agora qualquer um pode usá-lo para construir sistemas comerciais. "Nós fizemos isso de forma tranquila, para obter feedback", diz ele. "Agora estamos tentando ampliar o público. Este é um dos nossos segredos mais bem guardados. Estamos avançando e tornando-o mais aberto."