O Google e o Alexa ignoram idiomas menores?
NotíciaImagem principal: Astana, a capital do Cazaquistão. Cerca de metade dos 18 milhões de habitantes do país falam cazaque. Crédito: Alex J. Butler via Flickr, CC BY 2.0
Imagine se o inglês não fosse a linguagem universal da internet. E se você não pudesse ler este artigo on-line, exceto como uma versão desfigurada pelo Google Tradutor? E se Alexa não entendeu nada que você perguntou? Agora imagine que você entrou em contato com o Google e a Amazon e pediu para eles adicionarem o inglês em seus sistemas… e eles disseram 'Não, obrigado - faça você mesmo'.
dinheiro fala mais alto
Cazaque é uma língua falada por cerca de metade dos 18 milhões de pessoas no Cazaquistão, um vasto país na Ásia Central que faz fronteira com a Rússia e China - e embora seja vasto, é relativamente escassa população significa que pode ser negligenciada por gigantes da tecnologia como o Google.
”Como um mercado comercial, o Cazaquistão não é realmente interessante para o Google porque não gera a quantidade certa de dinheiro com publicidade,” diz Rauan Kenzhekhanuly, fundador da Fundação Pública WikiBilim sem fins lucrativos, que em 2011 criou uma versão da Wikipédia na língua cazaque, um enorme ato inicial de tradução que se mostrou crítico.
Rauan Kenzhekhanuly, fundador da Fundação Pública WikiBilim. Crédito: Jamie Carter
(Imagem: © Jamie Carter)Desde então ele tem sido a força motriz por trás de uma tentativa de impulsionar o Cazaquistão em ferramentas de tradução automática on-line.. ”É muito importante que os pequenos idiomas possam dar acesso a qualquer site e traduzir sites e artigos em seu idioma.,” ele diz, antes de sublinhar o quão endêmico inglês e russo são como língua escrita em cazaque. ”Na universidade, mesmo se você estudar literatura e idioma cazaques, será obrigado a encontrar livros didáticos em russo ou inglês..”
A ambivalência do Google em relação às culturas à margem é um comportamento bastante padronizado e talvez compreensível. Há alguns anos, as Ilhas Faroe solicitaram que o Google incluísse as Ilhas Faroe - lar de apenas 30 mil pessoas - no Google Street View, e usaram ovelhas para que isso acontecesse..
Perdido na tradução
Para ser justo com o Cazaquistão, foram tomadas algumas medidas drásticas para encontrar o mundo a meio caminho. Depois de obter 7.000 artigos em cazaque na Wikipédia, Kenzhekhanuly liderou um projeto para impulsionar isso para 210.000 para agradar o Google.
”Começamos a nos comunicar com o Google, mas eles explicaram que não fazem nada para trazer idiomas menores para o serviço do Google Tradutor,” ele diz. ”Eles disseram que cabe a você - você tem que nos fornecer toneladas de texto - e eles pediram 10.000 artigos.”
Depois de ultrapassar esse número de traduções espelhadas do cazaque para o inglês (e vice-versa) graças ao trabalho de 350 voluntários no Cazaquistão, o sistema do Google conseguiu construir suas primeiras traduções. O cazaque agora está disponível como um sistema simples de texto em texto no Google Tradutor, embora não traduza sites inteiros, fale cazaque, nem traduza por meio de uma câmera usando o aplicativo Google Translate (que é usado principalmente para traduzir menus).
Tão fácil quanto o ABC
Há mais um passo drástico que o Cazaquistão tomou para tornar sua linguagem mais fácil de integrar ao mundo em geral: está mudando todo o alfabeto. Trabalhando com a presunção de que o alfabeto cirílico russo costumava escrever cazaque é tanto uma ressaca da regra pela URSS, e desanimador para visitantes de língua inglesa, em 2017 o governo anunciou planos de transitar para o uso do alfabeto romano completamente até 2025.
O presidente do Cazaquistão, Nursultan Nazarbayev, anunciou no ano passado que o cazaque mudaria para o alfabeto romano. Crédito: Jamie Carter
(Imagem: © Jamie Carter)Já está sendo usado nas escolas, o que não é surpresa, já que o decreto dizia: “Pelo bem do futuro de nossos filhos, devemos tomar essa decisão e criá-la como uma condição de entrada para nossa integração global mais ampla..”
Revolução Russa
Apesar das concessões lingüísticas do Cazaquistão ao mundo da tecnologia, os avanços na tradução automática diminuirão os problemas de tradução em um futuro muito próximo. Tendo sido parte da URSS por 55 anos até 1991, o que o Cazaquistão está parcialmente combatendo em termos linguísticos é o contínuo domínio doméstico da língua russa; o que é irônico, porque apenas neste verão uma empresa britânica foi a primeira a quebrar a tradução russa-inglesa historicamente complicada..
”Em russo, uma palavra pode ter 12 variações de significado, com inflexões usadas em vez de ordem de palavras, mas em inglês são apenas três ou quatro e uma ordem fixa de palavras,” diz Mihai Vlad, vice-presidente de tradução automática da SDL, sediada no Reino Unido. ”Portanto, a tecnologia de tradução automática genérica não é suficiente para uma linguagem como a russa; você precisa de um mecanismo que aborde as formas específicas de expressão.”
Astana tem algumas das arquiteturas mais modernas do mundo, mas luta para atrair o interesse do Google e de outros gigantes da tecnologia. Crédito: Jamie Carter
(Imagem: © Jamie Carter)A solução provou ser a Neural Machine Translation (NMT), que também foi responsável por recentes avanços no reconhecimento de imagens e no reconhecimento de voz.. ”O que é diferente é como as palavras estão sendo convertidas em números,” explica Vlad. ”Cada palavra é codificada em uma matriz de números, e esses números são passados através de uma rede neural que usa multiplicação de matrizes, e você acaba com a incorporação de palavras que basicamente captura o significado da palavra ou sentença..”
As línguas latinas mostraram-se muito mais fáceis de mapear, mas o alemão, o russo e a maioria das línguas asiáticas exigiram que o NMT - essencialmente mecanismos de mapeamento de linguagem feitos sob medida - se tornassem legíveis por máquinas.
E quanto ao reconhecimento de voz??
Se ter uma Wikipédia em cazaque e colocar o cazaque no Google Tradutor está ajudando a manter o pequeno idioma vivo e florescente, e quanto ao Alexa, Google Assistant e Siri? Até agora, o crescimento global no reconhecimento de voz tem sido em hardware de assistente de voz, não de software, com todos os grandes players limitados em quais idiomas eles lidam:
Alexa: Inglês, alemão e japonês.
Assistente do Google: Inglês, francês, alemão, italiano, japonês e espanhol
Siri: Inglês, árabe, chinês, dinamarquês, holandês, finlandês, francês, alemão, hebraico, italiano, japonês, coreano, malaio, norueguês, português, russo, espanhol, sueco, tailandês e turco
”Nós adoraríamos fazer parte dessas tecnologias e, agora, estamos trabalhando para trazer o cazaque ao sistema de fala para fala.,” diz Kenzhekhanuly. Isso não é apenas para que as pessoas no Cazaquistão possam se dedicar a besteiras inusitadas como fazer um Echo definir os timers da cozinha e perguntar sobre o tempo - as apostas são muito maiores. Trata-se de acessar o futuro da tecnologia.
”Se você tiver seu idioma incluído no discurso para fala, terá acesso a plataformas que acessam smartphones, mas também a carros inteligentes..”
Rauan Kenzhekhanuly
”Se você tiver seu idioma incluído no discurso para fala, terá acesso a plataformas que acessam smartphones, mas também a carros inteligentes.,” diz Kenzhekhanuly. Por exemplo, os carros sem motorista do futuro certamente se comunicarão com seus 'motoristas' principalmente usando voz, mas se forem deixados para os fabricantes de automóveis e empresas de tecnologia, apenas os idiomas realmente grandes do mundo - mandarim, inglês e espanhol - serão atendidas.
De volta ao Cazaquistão, o trabalho continuará a fundir a língua cazaque no tecido da internet - e especificamente no Google Translate - porque Kenzhekhanuly está convencido de sua importância vital na era moderna.
”Não é perfeito, mas a beleza da tecnologia é que ela está melhorando constantemente,” ele diz. ”Como uma peça de tecnologia, não há outra que esteja mais perto de imitar o cérebro humano, e é por isso que é tão importante para o Cazaquistão fazer parte dele - essas plataformas não são apenas plataformas de informação, mas também plataformas linguísticas..”
TechRadar Next Up series é trazido a você em associação com a Honra