AI 혁명: AI는 어떻게 네트워크를 영구적으로 변화시켜 왔나?
2023년 8월 15일
작성자: Rami Rahim, 주니퍼 네트웍스 CEO
AI가 우리의 모든 것을 바꿀 것이라는 사실을 깨달은 순간이 기억납니다.
5년 전, 당시 주니퍼 네트웍스의 기술 파트너였던 Mist Systems의 창립자들이 비즈니스 기회를 모색하기 위해 주니퍼 네트웍스 사무실을 방문했습니다. 그리고 이들은 네트워크 문제가 사용자에게 드러나기도 전에 자동으로 문제를 파악하고 해결할 수 있는 AI 기반 네트워크 플랫폼이라는 획기적인 아이디어를 소개했습니다.
모든 것이 그럴듯하게 들렸습니다. 하지만 AI는 수십 년 동안 유행어에 불과했기 때문에 Mist의 실제 AI가 작동하는 것을 목격하기 전까지는 그 가능성에 대해 회의적이었습니다. 사실 저희 IT 팀은 이미 시범 구축을 통해 Mist의 효과를 체감하고 있었지만요. 결과적으로 이 플랫폼은 탁월한 정확성과 속도 덕분에 말 그대로 실시간으로 문제를 자가 진단하고 해결할 수 있었습니다.
그 순간 AI가 주니퍼와 전 세계에 얼마나 큰 영향을 미칠지 깨달았습니다.
많은 분들이 아시다시피, 주니퍼의 AIOps 플랫폼은 이후 주니퍼 전략의 초석이 되었습니다. 업계 다른 벤더들이 줄곧 말로만 머무르는 동안 주니퍼는 네트워크를 혁신하고 탁월한 사용자 경험을 위한 기반을 제공하는 업계 최고의 7세대 AI를 출시했습니다. 글로벌 소프트웨어 기업인 주니퍼 고객사의 경우 지원 요청 티켓이 90% 감소했고, 다국적 유통회사 고객은 매장 출장이 85% 감소했습니다. 미국 이동통신회사인 고객은 사상 최단 시간에 브랜치 네트워크를 구축했습니다.
이처럼 AI 기반 Mist 플랫폼은 수천여 개의 조직에서 '게임 체인저'가 되었습니다.
하지만 이것은 시작에 불과 했습니다.
Mist의 성공을 목격하면서 AI 애플리케이션이 더욱 광범위하게 확산되고 AI 모델과 데이터센터의 규모도 폭발적으로 증가하는 것은 시간 문제라는 것을 알았습니다.
주니퍼는 바로 이 지점에서 더욱 흥미를 느꼈습니다.
AI 기반 데이터센터: AI 혁명의 연장
수 년 전, 실리콘 회사들은 게임용 그래픽처리장치(GPU)가 인공지능(AI)의 학습 및 추론 워크로드 연산에 매우 적합하다는 사실을 발견했습니다
하지만 단일 GPU는 자체적으로 많은 AI 처리를 처리하는 데 한계가 있었죠.최신 AI/ML 클러스터는 오늘날의 AI 모델을 학습하는 데 필요한 대규모 병렬 컴퓨팅 성능을 제공하는 수백 개 또는 수천 개의 GPU로 구성됩니다.
물론 이러한 GPU를 하나로 연결하여 매우 강력한 단일 AI 처리 시스템으로 작동할 수 있게 하는 것은 네트워크입니다.
클라우드, 모바일 또는 스트리밍 서비스와 같은 이전 기술 혁명은 네트워크를 새로운 차원으로 끌어올렸지만, 분산된 머신러닝 워크로드에서 생성되는 데이터센터의 트래픽은 대부분의 다른 애플리케이션의 트래픽을 압도합니다. 대규모 데이터 세트를 통신하고 수십억, 심지어 수조 개의 모델 매개변수를 해결해야 하는 AI 요구 사항으로 인해 네트워크는 전례 없는 스트레스를 받고 있습니다.
간단히 설명하자면 고객이 최대 성능으로 구축하고자 하는 일반적인 GPU 클러스터는 미국 전역의 모든 인터넷 트래픽과 거의 비슷한 양의 네트워크 트래픽이 매초마다 클러스터를 통과합니다. AI 데이터센터의 경제성을 이해하려면 GPU 서버의 가격이 각각 40만 달러에 달할 수 있다는 점을 알아야 합니다. 따라서 GPU 활용도를 극대화하고 GPU 유휴 시간을 최소화하는 것이 AI 데이터센터 설계의 가장 중요한 요소 중 하나입니다.
워크로드를 GPU에 분산한 다음 이를 동기화하여 AI 모델을 학습시키려면 "JCT(Job Completion Time)"를 가속하고 시스템이 마지막 GPU가 계산을 완료할 때까지 기다리는 시간("Tail Latency")을 줄일 수 있는 새로운 유형의 네트워크가 필요합니다.
따라서 AI/ML에 최적화된 데이터센터 네트워크는 혼잡 관리, 로드 밸런싱, 지연, 그리고 무엇보다도 JCT를 최소화하는 특별한 기능을 갖춰야 합니다. 이러한 특성은 주니퍼가 수년 동안 탁월한 역량을 발휘해 온 시스템 특성입니다. 또한 모델 크기와 데이터 세트가 계속 증가함에 따라 ML 클러스터에 더 많은 GPU를 수용해야 합니다. 네트워크 패브릭은 성능 저하나 통신 병목 현상 없이 원활한 확장성을 지원해야 합니다.
90년대 인터넷 성장의 원동력이 된 고도로 전문화된 ASICs를 구축하면서 주니퍼에서 경력을 시작한 엔지니어로서 저는 수년 동안 업계가 새로운 수준의 규모, 성능, 속도를 달성할 수 있게 해준 혁신 주기를 최일선에서 지켜보았습니다.
AI 네트워킹은 한 세대에 한 번뿐인 변곡점으로, 앞으로 수년간 복잡한 기술적 과제를 안겨줄 것입니다. 그리고 저는 주니퍼가 이러한 미래를 실현할 수 있는 역량을 갖추고 있다고 믿습니다. 이는 제가 AI 기반 데이터센터 네트워크의 세 가지 계명이라고 부르는 것을 고수한다는 의미입니다.
1. 고성능
AI 모델 학습에서 가장 중요한 경제적 요소인 GPU 활용도를 극대화하려면 JCT에 최적화되고 테일 레이턴시를 최소화하는 네트워크가 필요합니다. 모델 학습 속도가 빨라진다는 것은 결과 도출 시간이 빨라진다는 것을 의미하지만, 컴퓨팅 리소스가 최적화된 데이터센터의 비용도 낮아진다는 것을 의미합니다.
주니퍼는 처음부터 실리콘에 구애받지 않고 노력해 왔으며, 이러한 노력을 통해 고객에게 전력 효율성 및 규모와 같은 다양한 요소에 맞게 최적화된 스파인, 리프, 데이터센터 상호연결에 대한 다양한 옵션을 제공합니다. 주니퍼는 타사 및 자체 설계 실리콘을 기반으로 하는 광범위한 시스템 포트폴리오를 제공하여 지구상에서 가장 큰 네트워크를 지원하고 있으며, AI 여정의 다양한 단계에 있는 고객에게 요구사항과 제약 조건을 충족할 수 있는 유연성을 제공하고 있습니다.
2. 개방형 인프라
인프라 투자에 있어 성능이 가장 중요한 요소로 고려됩니다. 하지만 그 다음은... 경제성이죠. 그리고 경제는 경쟁에 의해 주도되고 경쟁은 개방성에 의해 주도됩니다. 저희는 이미 업계에서 이러한 현상을 목격했습니다. 제가 베팅을 한다면 이더넷이 이긴다는 데 베팅하고 싶습니다. 이번에도 말입니다. 개방형 플랫폼은 혁신을 극대화합니다. 독점 기술이 중요한 역할을 하지 않는 것은 아니지만, 단일 기술 공급업체가 나머지 시장을 혁신하는 경우는 거의 없습니다. 그리고 많은 것이 걸려 있는 환경에서는 그런 일이 절대 일어나지 않습니다. 주니퍼는 이더넷 표준과 새로운 울트라 이더넷 컨소시엄을 비롯한 강력한 벤더 에코시스템을 확고히 지원하여 비용을 절감하고 혁신을 촉진하며 궁극적으로 InfiniBand와 같은 독점적인 접근 방식을 추월합니다.
주니퍼는 방대한 이더넷 에코시스템과 함께 데이터 전송 속도를 높이고 무손실 전송을 제공하며 혼잡 제어를 향상시키는 네트워킹 기술을 지속적으로 혁신하고 있으며, 이는 AI 혁명을 촉진하는 데 중요한 요소입니다.
3. 경험 최우선 운영(Experience-first Operations)
데이터센터 네트워크는 점점 더 복잡해지고 있으며 AI 워크로드 성능 요구 사항을 충족하기 위해 새로운 프로토콜을 패브릭에 추가해야 합니다. 복잡성은 계속 증가하겠지만 인텐트 기반 자동화는 네트워크 운영자가 이러한 복잡성으로부터 보호되도록 지원합니다. 주니퍼는 멀티벤더 및 운영 최우선 사고방식으로 데이터센터에 접근합니다. 주니퍼는 Junos와 Apstra 데이터센터 패브릭 관리 및 자동화 솔루션에 AI 클러스터를 확대해 나가고 있습니다. 그리고 무엇보다도 Apstra는 데이터센터 관리 및 자동화 부문에서 업계 유일의 멀티벤더 플랫폼입니다. 일차 구매 후 운영적으로 특정 벤더에 종속된다면 무슨 이득이 있을까요?
AI는 이제 현실이 되었고 돌이킬 수 없습니다.
주니퍼는 이미 유선, 무선, 광역 네트워크 관리를 간소화하여 최종 사용자 경험은 물론 네트워크 운영자의 업무를 획기적으로 개선하는 데 AI가 미치는 영향을 입증했습니다. 그러나 머신러닝과 대규모 언어 모델이 네트워크에 가하는 압박으로 인해 계속해서 혁신하고 새로운 과제를 해결해야 할 것입니다.
물론 이러한 도전은 매우 어렵습니다. 하지만 전 세계에서 가장 어려운 문제를 해결하는 것이 주니퍼의 원동력입니다. 주니퍼는 어떤 형태로든 Power connections. Empower change. 라는 공동의 미션에 따라 움직입니다. 주니퍼는 하이 퍼포먼스 전통을 기반으로 경험 최우선 운영이라는 목표를 향해 나아가고 있습니다.
데이터센터 네트워킹에 대한 주니퍼의 접근 방식이 AI의 새로운 시대를 열어갈 것이라고 확신합니다.