Os pesquisadores estão treinando AI para ouvir como seres humanos
NotíciaPesquisadores de inteligência artificial estão progredindo em direção aos seus objetivos de treinamento de sistemas de inteligência artificial para entender a fala apenas a partir da entrada de áudio, assim como os humanos.
No momento, a maioria da IA só consegue reconhecer a fala traduzindo-a primeiro em texto. Muitos progressos foram feitos em termos de redução das taxas de erro de palavras e aumento do número de suporte a idiomas..
No entanto, ter a IA entendendo a fala apenas por meio da entrada de áudio é um grande salto nessa fase, então os pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT deram um passo em frente mapeando a fala para imagens em vez de texto.
Ai te ouço
Não parece muito na superfície, mas a frase "uma imagem vale mais que mil palavras" deixa claro quão grande impacto ela poderia ter.
Na conferência Neural Information Processing Systems, os pesquisadores demonstraram seu método em uma apresentação baseada em um documento que escreveram.
A ideia por trás de sua pesquisa é que, se várias palavras puderem ser agrupadas sob uma única imagem relacionada, deve ser possível que o AI faça “provável” tradução sem a necessidade de treinamento rigoroso.
Para criar um conjunto de dados de treinamento para os sistemas de inteligência artificial, os pesquisadores usaram o conjunto de dados Places205, que tem mais de 2,5 milhões de imagens divididas em 205 assuntos diferentes. Os pesquisadores pagaram grupos de pessoas para descrever o que viram em quatro imagens aleatórias do conjunto de dados através de gravações de áudio. Eles conseguiram coletar mais de 120.000 legendas de 1.163 indivíduos.
A AI foi então treinada para vincular palavras em cada legenda a imagens relevantes, marcando a similaridade de cada pareamento para selecionar a tradução mais precisa. Se uma legenda for relevante para a imagem, ela deve pontuar alta, se não, deve ter pontuação baixa.
Nos testes, a rede recebeu gravações de áudio descrevendo uma imagem salva em seu banco de dados e foi solicitada a seleção de dez imagens que melhor correspondessem à legenda de áudio. Infelizmente, das dez imagens selecionadas, a correta estaria lá apenas 31% do tempo.
Esta é uma pontuação decepcionante para os pesquisadores, já que é uma forma bastante básica de treinar a IA para reconhecer palavras sem qualquer texto ou dados de linguagem para auxiliar sua compreensão..
No entanto, acredita-se que com a melhoria, esse meio de treinamento poderia ajudar o software de reconhecimento de fala a se adaptar mais rapidamente a diferentes idiomas e fornecer um novo meio de ensiná-lo a traduzir. Podemos ver como o reconhecimento de imagens funciona com o aprendizado de novas linguagens no cérebro humano, com software de aprendizado de idiomas como o oferecido pela Rosetta Stone..
Co-autor do artigo que detalha a pesquisa, Jim Glass, disse “O objetivo deste trabalho é tentar fazer com que a máquina aprenda a linguagem da mesma forma que os humanos.”
Conseguir esse tipo de aprendizado não supervisionado poderia tornar o treinamento da AI muito mais dispendioso e eficaz em termos de tempo, bem como mais útil para a sociedade em geral. Claramente, porém, muitos outros avanços precisam acontecer antes que isso seja possível.
- A Apple vai começar a publicar sua pesquisa de IA para melhorar a Siri