O "grande" em big data é suficiente para fazer com que a maioria dos arquitetos de TI se preocupe com a possibilidade de um aumento de carga em uma infraestrutura já sobrecarregada. À medida que as empresas passam da experimentação para a ampla implantação de big data e outros aplicativos em cluster, a rede que sustenta a coisa toda se torna mais crítica e mais carregada do que nunca.

Os líderes de TI precisam se fazer uma pergunta simples: minha rede está pronta para grandes volumes de dados??

Big data é grande, mas não como você pensa

Quando a maioria das pessoas pensa em Big Data, imagina aplicações massivas que abrangem milhares de nós em suporte às maiores empresas de escala da web. Embora seja verdade que essas implantações existem (o Yahoo possui, principalmente, mais de 40.000 nós do Hadoop), a implementação média de Big Data corporativo está, na verdade, na faixa de 100 a 150 nós.

Então, se a implantação média é relativamente pequena, é escalar até mesmo um problema?

Para a maioria das empresas, a escala não será sobre um ou dois aplicativos de big data. Hoje, as empresas que já estão experimentando neste campo estão realmente mergulhando seus dedos na proverbial água de big data. As implantações são pequenas porque são mais uma experiência do que uma aplicação crítica para os negócios. No entanto, se essas incursões iniciais no espaço gerarem sucesso nos negócios, espere que a adição de outros aplicativos seja rapidamente.

O curso provável que isso levará é a proliferação de pequenos aplicativos de big data, cada um consumindo algumas centenas de nós. Enquanto a maioria das empresas nunca experimentará a complexidade de uma implantação de 10.000 nós, elas começarão a experimentar a carga agregada de algumas dezenas de aplicativos menores.

O papel da largura de banda para big data

Toda a premissa do big data é dividir grandes cargas de trabalho em partes menores e mais consumíveis. Para fazer isso, os dados precisam ser replicados para servidores em um cluster. Como a maioria dos aplicativos de big data faz três cópias de cada informação (dois no rack, um em outro rack para resiliência), a carga na rede se torna grande rapidamente.

Tradicionalmente, o processamento de carga em uma rede é feito com uma tecnologia chamada Equal Cost Multi-Pathing (ECMP). Essencialmente, o ECMP distribui fluxos através de um pequeno número de caminhos de custo igual na rede. Portanto, mesmo que haja muitas maneiras de ir do ponto A ao ponto B, o ECMP selecionará o caminho mais curto e o equilíbrio de carga entre eles. Para fluxos de big data, isso pode criar problemas. Quando você envia muito tráfego pelos mesmos poucos caminhos, pode obter congestionamento na rede. A maioria dos aplicativos de big data lidam com o congestionamento simplesmente reenviando a solicitação. Mas, em tempos de congestionamento, as retransmissões apenas exacerbam o problema.

A tendência mais quente na rede é uma tecnologia chamada rede definida por software (SDN). O principal princípio arquitetural da SDN é a separação entre controle e encaminhamento. Criando um ponto de controle central, a SDN é capaz de analisar de forma inteligente a rede em sua totalidade. Isso possibilita encaminhar o tráfego de maneira inteligente por caminhos mais longos, porém menos congestionados. Pode ser que a adoção de multipathling de custo não igual seja uma chave para o dimensionamento com sucesso da infraestrutura para big data.

Mais que largura de banda

Embora o SDN possa ajudar a aliviar os problemas de largura de banda, utilizando mais dos caminhos disponíveis na rede, o escalonamento de big data não é apenas sobre a largura de banda. Se o crescimento de big data em datacenters corporativos envolve vários aplicativos, isso significa que a maior preocupação com escalonamento é como a rede pode ser responsável por diferentes aplicativos com requisitos diferentes..

A maioria das redes atuais foi criada para ser independente dos aplicativos executados nelas. Isso significa que a rede é projetada para ser de propósito geral, tratando todos os aplicativos praticamente da mesma maneira.

Mas nem todos os aplicativos de big data são iguais. Alguns são muito pesados ​​em largura de banda (como nos backups de dados). Outros são mais sensíveis à latência (como mecanismos de recomendação no AdTech). Outros são sensíveis a instabilidade ou perda. E ainda outros têm requisitos de conformidade rigorosos (PCI ou HIPAA). O ponto aqui é que é impossível para uma única rede tratar essas aplicações de forma diferente, se essa rede não é, pelo menos, um pouco ciente da aplicação.

O SDN tem o potencial de suportar os requisitos de aplicativos por meio da expressão de política abstrata. Em outras palavras, os usuários podem definir um aplicativo e atribuir a ele as coisas mais importantes. Se a largura de banda for importante, o controlador pode criar dinamicamente links de alta capacidade quando necessário. Se a latência for importante, o controlador pode ajudar a garantir que o caminho mais curto possível seja sempre usado. Se isolar o tráfego por motivos de conformidade é crítico, o controlador pode criar túneis.

O futuro da TI corporativa está mudando drasticamente, liderado por aplicativos como o big data. Felizmente, os avanços tecnológicos na infra-estrutura básica devem oferecer alívio para as empresas que buscam se beneficiar. No entanto, os arquitetos de TI precisarão planejar seus cursos de infraestrutura com cuidado e deliberadamente para garantir que a infraestrutura subjacente intercepte os aplicativos que eles desejam executar.

  • Michael Bushong, vice-presidente de marketing da Plexxi