A IA chegou para ficar: como essa revolução transformou as redes para sempre

15 de agosto de 2023

Por Rami Rahim, CEO, Juniper Networks


Lembro-me de quando percebi que a IA ia mudar tudo o que conhecemos.

Há cinco anos, quando os fundadores da Mist Systems (na época, um de nossos parceiros de tecnologia) decidiram nos procurar para explorar oportunidades de negócios, eles nos apresentaram uma ideia inovadora: uma plataforma de rede orientada por IA capaz de solucionar problemas de rede de forma autônoma, antes mesmo que sejam percebidos pelos usuários.

Tudo parecia incrível. Mas, como falar de IA já estava na moda, fui cético ao considerar o seu potencial – pelo menos, até testemunhar a IA da Mist em ação. Na verdade, nossa própria equipe de TI já estava sentindo o impacto da Mist, por meio de uma implantação de avaliação. A plataforma era capaz de realizar o autodiagnóstico e corrigir problemas em tempo real, graças a precisão e velocidade sem igual.

Foi então que percebi o imenso impacto que a IA teria para a Juniper e para o mundo.

Como muitos já sabem, a nossa plataforma de AIOps se tornou um dos alicerces da estratégia da Juniper. Enquanto o restante do setor continua a falar da IA, nós apresentamos a 7ª geração de uma IA líder do setor, que revolucionou a rede e preparou o caminho para experiências de usuário excepcionais, como uma redução de 90% nos tíquetes de suporte de uma empresa de software global e de 85% nas visitas à loja de um grande varejista multinacional. Ou, ainda, a mais rápida implantação de rede de filial da história de uma operadora celular nacional.

Está claro que a nossa plataforma Mist orientada por IA é um divisor de águas para milhares de organizações.

Mas esse é só o começo.

Após testemunhar o sucesso da Mist, sabíamos que seria apenas uma questão de tempo até que as aplicações da IA fossem adotadas mais amplamente – e que o mesmo ocorreria com a escala dos modelos e data centers de IA.

É nesse ponto que as coisas ficam ainda mais interessantes para a Juniper.

O data center da IA: a conexão de uma revolução

Há algum tempo, as empresas do silício descobriram que as unidades de processamento gráfico (GPUs) que criavam para jogos eram muito adequadas para o tipo de cargas de trabalho de aprendizado e inferência que a IA executa.

Mas uma GPU sozinha é capaz de um processamento de IA muito limitado. Clusters de IA/ML modernos incluem centenas ou, às vezes, milhares de GPUs que fornecem o imenso poder de computação paralela exigido para treinar os modelos de IA atuais.

E, é claro, é a rede que une todas essas GPUs e permite que operem como um sistema de processamento de IA único e extremamente poderoso.

Revoluções tecnológicas anteriores, como serviços celulares, de nuvem ou de streaming, elevaram a rede a um novo patamar, mas o tráfego de data center gerado por cargas de trabalho de aprendizado de máquina distribuídas supera aquele da maioria das outras aplicações. Os requisitos da IA para a comunicação de grandes conjuntos de dados e para resolver bilhões ­– ou mesmo trilhões – de parâmetros de modelo sobrecarregam a rede de forma inédita.

Explicando melhor: um cluster de GPUs típico, que nossos clientes tentam implantar com o máximo de desempenho, tem aproximadamente o mesmo tráfego de rede a cada segundo que todo o tráfego de internet em toda a América. E, para entender a economia de um data center de IA, saiba que os servidores de GPU podem custar até US$ 400.000 cada um. Portanto, maximizar a utilização da GPU e minimizar o seu tempo de inatividade é um dos fatores mais importantes do design do data center de IA.

Distribuir as cargas de trabalho pelas GPUs e depois sincronizá-las para treinar o modelo de IA requer um novo tipo de rede que pode acelerar o “tempo de conclusão de tarefas” (JCT) e reduzir o tempo que o sistema aguarda para que a última GPU finalize seus cálculos (“latência de cauda”).

As redes de data center otimizadas para IA/ML, portanto, precisam ter recursos especiais para gerenciamento de congestão, balanceamento de carga, latência e, acima de tudo, minimização do JCT. Esses são atributos de sistema em que a Juniper demonstra excelência há anos. E, conforme os tamanhos e conjuntos de dados continuam a crescer, os praticantes de ML precisam acomodar mais GPUs em seus clusters. A malha da rede precisa proporcionar escalabilidade contínua, sem comprometer o desempenho ou introduzir gargalos de comunicação.

Como um engenheiro por formação que iniciou a carreira na Juniper criando ASICs altamente especializados que possibilitaram o crescimento da internet nos anos 1990, tive o privilégio de estar na dianteira dos ciclos de inovação que levaram o nosso setor a alcançar novos níveis de escala, desempenho e velocidade.

A rede da IA representa um ponto de inflexão único que apresentará desafios técnicos complexos por muitos anos. E acredito que, na Juniper, temos tudo o que é necessário para capacitar esse futuro. Para nós, isso significa seguir o que chamo de os três mandamentos da rede de data center de IA:

1  Alto desempenho
Maximizar a utilização da GPU, o fator econômico mais abrangente do treinamento de modelos de IA, requer uma rede que otimiza o JCT e minimiza a latência da cauda. O treinamento de modelos mais rápido significa mais agilidade para atingir resultados, mas também um data center mais econômico, com recursos de computação otimizados.

Desde o primeiro dia, a Juniper não está presa ao silício, e esse compromisso oferece aos nossos clientes diferentes opções de interconexão de spine, leaf e data center, com otimização para vários fatores, como eficiência de energia e escala. Oferecemos um amplo portfólio de sistemas baseados em silício projetado por terceiros ou internamente que capacitam as maiores redes do planeta, ao mesmo tempo em que fornecem a clientes em estágios variados de sua jornada da IA a flexibilidade necessária para atender às suas necessidades e restrições.

2.  Infraestrutura aberta
O desempenho importa, e é por isso que todos investem nele. Porém... a economia prepondera. E a economia é movida pela competição, e a competição é movida pela abertura. Já vimos isso acontecer em nosso setor. E, se eu gostasse de apostas, apostaria na Ethernet. De novo. Uma plataforma aberta maximiza a inovação. Não é que tecnologias patenteadas não tenham o seu papel, mas é raro que um único fornecedor de tecnologia supere todo o resto do mercado quando se trata de inovação. E isso simplesmente nunca acontece em ambientes onde existe muito em jogo. A Juniper apoia fortemente o padrão Ethernet e seu poderoso ecossistema de fornecedores, incluindo o novo Ultra Ethernet Consortium, que reduz custos, estimula a inovação e supera abordagens patenteadas, como a InfiniBand.

Ao lado do amplo ecossistema Ethernet, a Juniper continua a inovar em tecnologias de rede que aceleram a transferência de dados, fornecem transmissão sem perdas e aprimoram o controle de congestão – aspectos críticos para capacitar a revolução da IA.

3.  Operações com a experiência em primeiro lugar
As redes de data center estão cada vez mais complexas, e novos protocolos precisam ser adicionados à malha para atender às demandas de desempenho das cargas de trabalho de IA. Embora a complexidade continue a aumentar, a automação baseada em intenção protege o operador da rede contra essa complexidade. A Juniper aborda o data center com uma mentalidade multifornecedor que coloca as operações em primeiro lugar. Estamos adicionando extensões para clusters de IA ao Junos e à nossa solução de automação e gerenciamento de malha de data center Apstra. Por falar nisso, o Apstra é a única plataforma multifornecedor desse tipo no setor. Afinal, qual seria o benefício de ter uma plataforma aberta se você está preso operacionalmente após a primeira compra?

A IA chegou, e não é possível voltar atrás.

A Juniper já provou o impacto da IA na simplificação do gerenciamento de redes com fio, sem fio e WAN, melhorando drasticamente as experiências do usuário final e facilitando a vida dos operadores de rede. No entanto, a pressão que o aprendizado de máquina e os grandes modelos de idioma exercem sobre as redes nos obriga a inovar e resolver novos desafios.

E é claro que esses desafios são extremamente difíceis. No entanto, resolver os problemas mais difíceis no mundo todo é o que sempre nos motivou na Juniper. Somos estimulados pelo objetivo de fortalecer conexões e capacitar mudanças, em qualquer forma que assumam. Colocamos em ação o nosso legado de alto desempenho e a nossa obstinação com a priorização das operações.

Estou confiante de que a abordagem da Juniper às redes de data center proporcionará a evolução de uma nova era da IA.