As conseqüências não intencionais dos dados de envelhecimento do boom de dados
NotíciaOs dados são centrais para todas as tecnologias que tocamos e, à medida que nos movimentamos diariamente, consumimos e geramos dados a um ritmo incrível. Mesmo algo tão simples como pagar o almoço em um café com cartão de débito gera dados.
Recentemente, os volumes de dados que estamos produzindo explodiram, por isso não estamos mais falando sobre dados facilmente gerenciados em uma planilha, mas sobre big data, que impulsiona a necessidade de sofisticados sistemas de inteligência.
Os grandes evangelistas de dados têm divulgado os benefícios de coletar mais e mais dados, citando que o tamanho é bom e maior é melhor. Essa onda de dados foi projetada para nos tornar mais inteligentes, nos permitir tomar decisões quase em tempo real e talvez até prever comportamentos futuros.
No entanto, essas afirmações sedutoras sobre big data escondem o fato de que, se coletadas dentro da infraestrutura atual na maioria das empresas, a inundação de dados tem maior probabilidade de tornar uma empresa mais lenta, menos responsiva e - a longo prazo - menos "inteligente".
Por que isso está acontecendo?
É porque o processamento de terabytes de informações nos sistemas legados já tributados em que muitas empresas são executadas demora mais e mais, à medida que os volumes de dados aumentam.
Como resultado, as organizações de dados acabam usando para relatórios críticos para os negócios ou para testar novos aplicativos, não é em tempo real, é antigo e só envelhece, pois os seguintes tipos de requisitos adicionais de TI exacerbam o problema:
Migração de dados: As empresas geralmente executam um grande número de aplicativos corporativos (os do setor bancário podem contá-los aos milhares) e têm processos complexos para que os dados sejam concluídos antes que cheguem ao software de business intelligence para análise..
Os dados devem passar de aplicativos para armazenamentos de dados operacionais antes de terminarem em um data warehouse. Normalmente, há uma janela limitada de tempo em que esse processo precisa ser concluído e, quando os volumes de dados eram menores, era uma tarefa bastante gerenciável..
Se um desses projetos está acontecendo simultaneamente com projetos de BI, é possível que, de repente, em vez de ter dados antigos no ambiente de relatórios, os analistas acabam com dados que, em alguns casos, tinham semanas. Um de nossos clientes calculou o custo dessa espera por dados antigos em 50% de seu investimento em BI.
Replicação de banco de dados: Muitas organizações grandes precisam gerenciar várias instâncias de bancos de dados únicos. Esses bancos de dados são usados para uma grande variedade de processos de negócios, incluindo teste e desenvolvimento, garantia de qualidade (QA), treinamento e backup e recuperação de desastres..
Como resultado, em média, cada banco de dados é replicado de oito a dez vezes. Essas réplicas agem como uma âncora marítima em qualquer sistema de inteligência de negócios; é preciso muito tempo e esforço para processar os dados replicados, produzindo um empecilho em todo o processo.
Mascaramento de dados: Em breve, os novos regulamentos da UE exigirão que qualquer organização que lide com os dados do cliente mascare os dados confidenciais que coleta, independentemente de ser usada para desenvolvimento, teste e controle de qualidade, ou se for simplesmente armazenada e monitorada para fins de business intelligence.
Embora o processo de mascaramento de dados seja direto, as organizações geralmente têm problemas com a entrega de dados. Como as organizações são obrigadas a mascarar não apenas um conjunto de dados, mas todas as cópias feitas, esses projetos se acumulam em uma taxa rápida.
Uma série de compromissos
Então, qual é a solução para esse problema de dados antigos? Tradicionalmente, na maioria dos casos, envolve muitos compromissos. Por exemplo, algumas empresas tentam resolver esse problema optando por trabalhar com subconjuntos menores de dados.
Outras organizações priorizam quais dados realmente precisam ser em tempo real e quais podem ser entregues semanalmente, mensalmente ou trimestralmente. No entanto, ao se afastarem das arquiteturas legadas e priorizarem a integridade de seus dados, muitas organizações estão descobrindo que podem evitar tomar essas medidas comprometedoras..
Para priorizar dados, as primeiras organizações precisam tornar esses dados ágeis. Técnicas de virtualização agora estão sendo aplicadas a pilhas inteiras de aplicativos, o que permite que até mesmo os conjuntos de dados mais expansivos ocupem uma fração do espaço, o que significa que os dados agora podem ser entregues em qualquer lugar dentro da organização em minutos.
As organizações que colocaram seus dados em primeiro lugar, implantando a tecnologia de virtualização, viram os tempos de processamento encolherem drasticamente de semanas para algumas horas, o que significa que os dados não têm a chance de se tornar obsoletos que já tiveram. Um de nossos clientes conseguiu melhorar o desempenho de tal forma que os dados chegaram em minutos e não em dias.
A maioria dos líderes de TI já entende os benefícios de agilidade e mobilidade que a virtualização pode fornecer com seus servidores. No entanto, ao expandir as possibilidades de virtualização para a pilha de aplicativos, as organizações podem começar a obter os tipos de insight e business intelligence que o "big data" sempre prometeu, enquanto ainda é capaz de desenvolver, testar e implantar novos aplicativos com eficiência.
Dados de envelhecimento nos tornam mais lentos, não mais espertos; mas com a infra-estrutura correta, os grandes dados - o meu é maior que o seu - podem finalmente começar a adquirir algum significado real.
- Iain Chidgey tem mais de 20 anos de experiência no setor de TI e atualmente é vice-presidente e gerente geral da Delphix na EMEA, um fornecedor global líder de plataforma de gerenciamento ágil de dados para empresas de todo o mundo..