Algoritmos de computador modernos foram capazes de "ver" o mundo por algum tempo. O software Chauffeur do Google em seus carros autônomos usa um laser de 64 feixes para mapear o terreno ao redor e combinar os dados com uma biblioteca de mapas de alta resolução.

Os aspiradores robóticos Roomba utilizam sensores infravermelhos e mecânicos para evitar obstáculos na sua casa; O sensor Kinect da Microsoft usa reconhecimento facial para identificar automaticamente os usuários e ativar seus perfis.

Mas poucos algoritmos de reconhecimento visual são capazes de aprender ativamente sobre o mundo ao redor deles ou entender as relações entre pessoas, lugares e objetos..

Como, por exemplo, um computador sabe como é um carro? Nós apenas sabemos. Construímos esse conhecimento ao longo do tempo observando muitos carros. Consequentemente, sabemos que nem todos os carros parecem iguais. Sabemos que eles vêm em diferentes formas, tamanhos e cores. Mas geralmente podemos reconhecer um carro porque eles têm elementos consistentes e definíveis - rodas, pneus, um motor, pára-brisa e espelhos retrovisores, eles viajam em estradas e assim por diante..

NEIL é um programa de computador simples

Um computador poderia aprender todas essas informações da mesma maneira? Uma equipe que trabalha na Universidade Carnegie Mellon, nos Estados Unidos, acredita que sim. Desenvolveu um sistema chamado NEIL (Never Ending Image Learner), um programa de computador ambicioso que pode decifrar o conteúdo das fotos e fazer conexões visuais entre elas sem ser ensinado. Assim como um humano faria.

De acordo com Xinlei Chen, um estudante de PHd que trabalha com NEIL, o software "usa um algoritmo de aprendizado semi-supervisionado que em conjunto descobre relações de senso comum - por exemplo" Corolla é uma espécie de / parece similar a Car ' '- e rotula as instâncias das categorias visuais dadas ... A entrada é uma grande coleção de imagens ea saída desejada está extraindo padrões significativos ou interessantes em dados visuais - por exemplo, carros são detectados com freqüência em pistas. Esses padrões nos ajudam a extrair relações de senso comum "

Como a parte "sem fim" de seu nome sugere, o NEIL está sendo executado continuamente, e funciona roubando dados da Pesquisa de Imagens do Google para acumular uma biblioteca de objetos, cenas e atributos. O leque atual de informações inclui desde porta-aviões a zebras, basílicas a hospitais, texturas pontilhadas a padrões diferenciados de tartan..

Começando com uma imagem de um computador de mesa, por exemplo, o NEIL fará referência a imagens existentes de computadores em seu banco de dados, além de quaisquer imagens que tenham sido especificadas como pertencentes a um computador desktop, como monitores, teclados e mouses..

NEIL pode aprender a conexão entre as imagens

Consequentemente, pode aprender que 'Monitores fazem parte do Computador de Mesa' e 'O Teclado faz parte do Computador de Mesa'. De fato, analisando imagens dessa maneira, o NEIL pode formar quatro tipos diferentes de relacionamento visual - objeto a objeto ('BMW 320 é um tipo de carro'), objeto a atribuir ('ovelha é / tem branco), cena a objeto ('Bus is found in Bus depot') e cena a ser atribuída ('Ocean is blue'). Você pode ver os resultados em andamento do progresso da catalogação de imagens do NEIL no site do projeto.

Nos primeiros dois meses e meio de sua vida operacional, a equipe da Carnegie Mellon deixou a NEIL perder 200 núcleos de processamento. Desde 15 de julho, ele analisou mais de cinco milhões de imagens, identificou 500.000 imagens e formou mais de 3.000 relações de senso comum. Estas incluem as seguintes suposições corretas: 'Agra pode ter Taj_mahal', 'Mudflat pode ter Gaivota', 'Sydney pode ser / pode ter Sunny_weather' e 'Tent_indoor pode ser / pode ter Cone_shape'.

É claro que a abordagem do NEIL não é perfeita e, dependendo da natureza das imagens de origem, muitas vezes pode fazer declarações incorretas. Estes incluem: 'Moinho de Vento pode ter Helicóptero' (as velas de um aerogerador parecem lâminas de rotor…) e 'O radiador pode ser uma parte do Acordeão' (o fole plissado de um acordeão pode parecer semelhante ao design ondulado de um típico radiador.) Portanto, o processo de aprendizado da imagem não é totalmente autônomo. Há um grau de moderação humana corretiva envolvido para purificar os dados semânticos.

Dito isso, a taxa de sucesso do NEIL é surpreendentemente boa. Em uma amostra aleatória, 79% dos relacionamentos formados pelo NEIL foram considerados corretos, enquanto 98% dos dados visuais extraídos das imagens do Google também foram corretamente rotulados..

Qual é o sentido disso tudo? Já existem bancos de dados visuais estabelecidos, como o ImageNet, que possui mais de 14 milhões de imagens. Enquanto o projeto Visipedia do Caltech se auto-intitula uma 'enciclopédia visual' de crowdsourcing.

De acordo com Chen NEIL é "uma tentativa de desenvolver a maior base de conhecimento visual estruturada do mundo com mínimo esforço de rotulagem humana - que reflete o conteúdo factual das imagens na internet, e que seria útil para muitos esforços de visão computacional e IA".

O projeto NEIL junta-se à iniciativa de pesquisa existente NELL (Never Ending Language Learner) da Carnegie Mellon. Isso tenta desenvolver um sistema que aprenda a "ler a web" e extrair um conjunto de fatos verdadeiros e estruturados das páginas que analisa.

O NELL está em funcionamento desde 2010 e acumulou uma base de conhecimento de 2.069.313 coisas que acredita ser verdade. Estes incluem 'scrap_booking é forma de arte visual' e 'Gujarat é um estado ou província localizada no país Índia'.

Trechos de trechos e peças de carros podem não soar como inovações tecnológicas, mas esses avanços em visão computacional e aprendizado de máquina (embora assistidos por humanos) ajudarão a pesquisar os algoritmos de busca inteligentes e as inteligências artificiais do futuro..

Agora, por que não ler: a inteligência artificial está se tornando uma mercadoria??