Onde quer que você olhe, não há escassez de estatísticas ou análises que apontem para a explosão global no crescimento de dados. De acordo com a CSC Insights, espera-se que a produção de dados seja 44 vezes maior em 2020 do que em 2009, com os volumes de dados corporativos dobrando globalmente a cada 1,2 ano..

No entanto, o problema em aproveitar ao máximo esse recurso cada vez mais valioso não é o volume maior de dados, mas a complexidade de extrair mais valor dele. A maior parte desse crescimento é proveniente de novas formas de dados - como conteúdo de mídia social, imagens, vídeo e dados de sensores - geralmente categorizados como dados "não estruturados", porque não seguem um formato de linha e coluna normalmente usado para armazenar e analisar dados.

Além disso, o valor ideal dessas fontes complexas só pode ser realizado a partir da aplicação de novos tipos de análise não familiares..

Tempos de reação

Não é de surpreender que as empresas estejam reagindo a essas mudanças dramáticas, para aproveitar essa tremenda oportunidade de melhoria de negócios. Como resultado, o big data está se movendo decisivamente para o topo da agenda da diretoria.

No entanto, dada a complexidade do tópico, a ação tomada é muitas vezes aleatória, sem uma direção ou estratégia clara, resultando em oportunidades perdidas e uma realização lenta de benefícios potenciais..

Uma pesquisa recente da Teradata com empresas européias constatou que quase a metade (47%) já está executando projetos de big data ou planeja fazê-lo nos próximos dois anos. E o ímpeto está crescendo - mesmo com o apoio do governo - por exemplo, a Comissão Européia está financiando um Fórum Público Privado de Big Data (BIG) projetado para envolver todas as partes interessadas no avanço do debate sobre big data.

Nos EUA, empresas maiores avançaram ainda mais rapidamente. Em 2009, havia apenas um pequeno número de projetos de big data, no valor de apenas US $ 100 milhões, mas hoje, mais de 90% das empresas da Fortune 500 possuem algum tipo de iniciativa de big data em andamento..

Dado que o crescimento dos dados é predominantemente impulsionado por novas fontes de dados "não estruturadas", também há um impacto significativo nos métodos empregados para armazenar e analisar esse ativo. Isso é espelhado pelo crescente interesse em novas estruturas de armazenamento, especialmente soluções de código aberto, como o Hadoop.

Hadoop - indo além da experimentação

Como um primeiro passo no Big Data, muitas empresas embarcaram em uma exploração do Hadoop, atraídas pelo conceito de baixar software livre de código aberto em servidores de commodities de baixo custo para melhorar sua capacidade de analisar dados efetivamente dentro do negócio..

No entanto, esta abordagem não é isenta de riscos. Primeiro, começar com a solução é olhar pela extremidade errada do telescópio. Em vez disso, a organização deve primeiro considerar os problemas comerciais a serem abordados e, em seguida, delinear uma resposta apropriada..

Em segundo lugar, qualquer desenvolvimento deve ser submetido a uma análise rigorosa e contínua sobre se está funcionando e apto para o propósito como a melhor solução para o problema..

Dito isso, o Hadoop oferece vários benefícios exclusivos para o negócio. Como um grande sistema de arquivos distribuídos, permite que a organização adquira e armazene grandes volumes de dados semi-estruturados e não estruturados de maneira econômica. Como resultado, está sendo cada vez mais percebido como uma plataforma de armazenamento de dados de longo prazo altamente eficiente..

O Hadoop também é uma maneira eficiente de processar arquivos sequencialmente. Isso é especialmente valioso para tarefas de pré-processamento, como a preparação de registros da web para carregamento em um data warehouse.

No entanto, como uma ferramenta de processo em lote tradicional, o Hadoop é menos eficiente do que um armazém de dados tradicional no tratamento de consultas que exigem dados em arquivos diferentes e pode suportar apenas um pequeno número de consultas do usuário em um determinado momento..

Então, onde isso nos deixa? As empresas que implementam o Hadoop normalmente acham rápido e fácil armazenar volumes massivos de tipos de dados diferentes e fazer grande parte da manipulação e preparação inicial dos dados necessários. No entanto, eles reconhecem rapidamente as limitações da análise em execução nesse ambiente - a verdade é que não existe um único marcador de prata para a ampla variedade de analítica necessária hoje em dia..