Por que o reconhecimento de voz não é mais apenas um truque
Notícia"Eu considero um bom presságio que o rádio deveria ter atingido sua perfeição atual em uma época em que o império foi ligado em uma união mais próxima, pois nos oferece imensas possibilidades de tornar essa união ainda mais próxima". O mundo percorreu um longo caminho desde que o Rei George V pronunciou essas palavras em um microfone no primeiro discurso de Natal transmitido pela BBC em 1932..
Hoje, 82 anos depois, o rei George teria, sem dúvida, olhado com descrença quando pedi ao meu smartphone que me encontrasse uma gravação de suas famosas palavras via YouTube na internet. No entanto, na opinião de um humilde 'plebeu', acredito que os sistemas de reconhecimento de voz e ditado finalmente atingiram a maioridade..
Em termos relativos - pelo menos desde o nascimento da era digital - os pedidos de ditado de voz não são nada particularmente novos. A malfadada empresa belga, Lernout e Hauspie, estavam desenvolvendo sistemas de reconhecimento de fala em 1987 e compraram a Dictaphone e a Dragon Systems no início do Millennium para adicionar peso à base de seus produtos..
Embora a empresa não exista mais, a Microsoft continuou a usar algumas das tecnologias de interface de fala da L & H..
Uma tecnologia em amadurecimento
No entanto, muitas das primeiras aplicações eram escamosas e pouco confiáveis, exigindo que os bancos de dados de voz fossem vinculados a algoritmos e "treinamento" com base em algumas centenas de usuários inscritos como parte de programas de pesquisa e desenvolvimento..
Hoje, com o advento da nuvem e do big data, há uma quantidade quase infinita de dados de voz disponíveis de usuários 'reais' vinculados a servidores que definem e processam linguagens e palavras complicadas sem qualquer treinamento de algoritmo ou usuário. Essa mudança radical é evidenciada pela sofisticação do aplicativo móvel Siri e DragonDictate da Apple, que até mesmo aprendem com seu próprio vocabulário à medida que avança.
Agora, qualquer pessoa (sem um sotaque realmente pesado) pode acessar ferramentas de reconhecimento e ditado de voz gratuitas, baseadas no consumidor, de forma confiável e sem qualquer treinamento. Além disso, o conjunto de dados para usar a tradução de voz cresceu exponencialmente.
Sem dúvida, essa mudança de paradigma na tecnologia transformou sistemas baseados em voz de truques tecnológicos peculiares em ferramentas de negócios genuínas..
Por quê? Porque o ritmo de desenvolvimento saltou tão rápido, ajudado não apenas pelo big data, mas também pela demanda por ferramentas de 'hyper-tasking' que podem acompanhar a demanda dos consumidores pelo imediatismo e pelo trabalho enquanto estão em movimento. É certamente mais rápido do que digitar em uma tela de celular e, para aqueles que não conseguem tocar, geralmente mais rápido do que usar um teclado de mesa.
Avanços na conversão de texto em fala
Houve também uma maioridade para as aplicações de texto para voz. Uma vez confinada a uma ferramenta de nicho para os mercados de acessibilidade e deficiência visual, a revolução nos dispositivos móveis e, em particular, nos sistemas automotivos gerou uma demanda mais ampla de software que pode ler texto sem soar como uma língua estrangeira.
Na verdade, o texto para fala tem um benefício inesperado quando se trata de leitura de prova. Um jornalista amigo meu me disse que, não importa se ele está escrevendo para transmissão ou impressão, ele sempre lê qualquer coisa que tenha digitado em voz alta..
Isso não só lhe dá uma noção da escrita em geral, mas é a melhor maneira de detectar erros ortográficos que de outra forma seriam perdidos com a leitura silenciosa, que usa uma parte diferente do cérebro. O mesmo se aplica à tecnologia text-to-speech. Afinal, onde estaríamos sem tais clássicos literários como "O DaVinci Cod" ou "Cem Ouvidos de Solidão" de Gabriel Garcia Marquez??
Dez anos atrás, o software de ditado por voz era apenas o domínio de secretárias, advogados, médicos e executivos ocasionais experientes. Hoje em dia é quase um dado adquirido e o resultado poderia ser um aumento dramático na produtividade e uma vida mais segura em movimento.
Finalmente, se você é um desses céticos, talvez muito traumatizado pelo esforço de usá-lo em encarnações anteriores de ditado por voz - por que você não oferece alguns desses novos sistemas? Por que não experimentar o Google Now, o Apple Siri ou o aplicativo Nuance Dragon Dictate??
- O Dr. Peter Chadha é Diretor Executivo da Dr Pete Inc e da Steegle.com. Ele é consultor de TI que fornece análises e implementações estratégicas de TI para empresas globais. Ele adota uma abordagem pragmática para soluções de negócios, mas é um evangelista de tecnologia.