Quando você lê o título deste artigo, você deve se perguntar do que estou falando quando digo: "Está doente!"

Faz sentido se eu apenas testemunhei um acidente de carro tão hediondo que me fez sentir mal do estômago. No entanto, também faz sentido se eu acabei de ver Sidney Crosby marcar o gol do jogo para a medalha de ouro na Olimpíada de Socchi de 2014. Uma dificuldade com linguística é que a mesma palavra pode ter múltiplos significados.

Na língua inglesa, a palavra "doente" é definida pelo dicionário Oxford da seguinte forma: "afetada por doença física ou mental". O que você não encontrará no dicionário de Oxford é a gíria que significa "doente", que o dicionário urbano define como: "louco; legal; insano".

Bom ou mal?

Como uma máquina pode decifrar se estamos falando do "bom doente" ou do "mau doente"??

Vamos dar um passo para trás, como os humanos podem dizer de que "doentes" estamos falando? Os humanos obtêm ajuda de coisas como: linguagem corporal, o tom da voz do comunicador, contato visual, expressão facial, bem como símbolos culturais como roupas, estilo de cabelo e localização.

A tecnologia de processamento de linguagem natural, como a mineração de texto, não pode usar os métodos de comunicação mencionados anteriormente. Não é possível ... ainda. Em cerca de 5 a 10 anos, quando o reconhecimento de imagem e a análise de emoção se tornam mais avançados, podemos começar a obter pistas da linguagem corporal e do tom de voz..

A mineração de texto deve se basear na compreensão contextual da sentença para dizer a diferença entre os dois significados da mesma palavra..

As palavras que envolvem "doente" e a ordem dessas outras palavras atribuem à compreensão contextual de uma sentença. Vamos dar uma olhada em alguns exemplos:

Exemplo 1 - "Olhar para aquele acidente de carro me deixou doente"

Um mecanismo de mineração de texto sabe que quando a palavra "sentir" é colocada antes da palavra "doente", "doente" é marcado com sentimento negativo. O motor sabe que se sentir mal é ruim.

Exemplo 2 - "Nossa, o gol de Crosby estava doente!"

Mecanismo de Mineração de Texto

Um mecanismo de mineração de texto saberá que um "objetivo" não pode ser "doente" por definição. Uma meta não é uma coisa viva, não pode ser afetada pela doença, portanto, uma meta não pode estar doente. (A maioria dos mecanismos de mineração de texto faz referência a seu conhecimento a partir de algum tipo de ontologia semântica. Aqui está um exemplo da matriz conceitual de mineração de texto da Lexalytics.)

No entanto, se você estiver trabalhando com um conjunto de dados sobre esportes, poderá treinar o mecanismo para ter uma opinião positiva sobre a palavra "doente" sempre que aparecer em uma sentença perto da palavra "meta".

Esta não é a solução "seja tudo para todos". Palavras com vários significados, duplos sentidos e sarcasmo são coisas muito complicadas para se trabalhar quando se trata de mineração de texto. Um dia, teremos uma máquina impecável que é programada com todos os dialetos conhecidos, idiomas, gírias; literalmente tudo que engloba a linguagem!

Mas, por enquanto, é muito legal termos a capacidade de treinar uma máquina para entender o contexto como um ser humano.

  • Scott Van Boeyen é o gerente de comunidade da Lexalytics e da Semantria. Com o objetivo de ajudar jornalistas / repórteres com conteúdo relacionado a big data e analytics, escrever, blogar e fornecer liderança de pensamento através de mídias sociais.