AI 데이터센터 네트워킹이란?

AI 데이터센터 네트워킹이란?

AI 데이터센터 네트워킹은 인공지능(AI)을 지원하는 데이터센터 네트워킹 패브릭을 의미합니다. AI 데이터센터 네트워킹은 AI 교육 단계에서 특히 까다로운 AI 및 머신러닝(ML) 워크로드의 엄격한 네트워크 확장성, 성능 및 저지연 요구 사항을 지원합니다.

초창기 고성능 컴퓨팅(HPC) 및 AI 교육 네트워크에서는 독점 사용권이 있는 저지연 고속 네트워킹 기술인 InfiniBand가 서버와 스토리지 시스템 간의 빠르고 효율적인 통신 덕분에 인기를 얻었습니다. 오늘날에는 이에 대한 개방형 대안인 이더넷이 AI 데이터센터 네트워킹 시장에서 상당한 관심을 끌고 있으며 앞으로 우세한 기술이 될 것으로 예상됩니다.

이더넷 도입이 늘어나는 데는 여러 가지 이유가 있지만, 특히 운영과 비용 측면이 주목할 만합니다. 독점 소유권을 가진 InfiniBand 네트워크와 달리 이더넷을 구축하고 운영할 수 있는 네트워크 전문가의 인재 풀은 규모가 상당히 크고, 출처가 주로 Nvidia인 InfiniBand 기술에 비해 이러한 네트워크를 관리하는 데 사용할 수 있는 도구도 매우 광범위합니다.

 

AI 데이터센터 네트워킹으로 해결할 수 있는 AI 기반 요구 사항은 무엇입니까?

생성형 AI는 전 세계에서 혁신적인 기술로 판명되고 있습니다. 생성형 AI와 대규모 딥러닝 AI 모델은 일반적으로 새로운 AI 데이터센터 네트워킹 요구 사항을 발생시킵니다. AI 모델을 개발하는 데는 다음 세 가지 단계가 있습니다.

  • 1단계: 데이터 준비 - AI 모델에 공급할 데이터 세트를 수집하고 관리합니다.
  • 2단계: AI 교육 - AI 모델을 대량의 데이터에 노출시켜 특정 작업을 수행하도록 가르칩니다. 이 단계에서 AI 모델은 트레이닝 데이터 내의 패턴과 관계를 학습하면서 가상 시냅스를 개발하여 지능을 흉내냅니다.
  • 3단계: AI 추론 - 실제 환경에서 작동하면서 처음 보는 새로운 데이터를 기반으로 예측하거나 결정을 내립니다.

3단계는 일반적으로 기존의 데이터센터와 클라우드 네트워크로 지원됩니다. 하지만 2단계(AI 교육)의 경우 AI 모델이 지속적으로 수집된 데이터로부터 학습하여 파라미터를 개선하는 반복적인 과정을 지원하기 위해 방대한 데이터 및 컴퓨팅 리소스가 필요합니다. 그래픽 처리 장치(GPU)는 AI 학습 및 추론 워크로드에 적합하지만 클러스터 단위로 작동해야 효율적입니다. 클러스터를 확장하면 AI 모델의 효율성이 향상되지만 비용도 증가하므로 클러스터의 효율성을 방해하지 않는 AI 데이터센터 네트워킹을 사용하는 것이 중요합니다.

대규모 모델을 트레이닝하려면 심지어 수만 개에 이르는 많은 GPU 서버를(비용은 2023년 서버당 $400,000 초과) 연결해야 합니다. 결과적으로 작업 완료 시간을 최대한 단축하고 꼬리 응답 시간(이상값 AI 워크로드가 전체 AI 작업의 완료를 느려지게 하는 상황)을 최소화하거나 제거하는 것이 GPU 투자 수익을 최적화하는 데 핵심입니다. 이런 사용 사례에서 AI 데이터센터 네트워크는 100% 안정적이어야 하고 클러스터의 효율성 저하를 야기해서는 안 됩니다.   

 

AI 데이터센터 네트워킹의 작동 방식

보통 고가의 GPU 서버가 AI 데이터센터의 전체 비용을 증가시키긴 하지만, GPU 활용도를 극대화하기 위해서는 고성능 네트워크가 필요하기 때문에 AI 데이터센터 네트워킹이 중요합니다. 이더넷은 검증된 개방형 기술로서, AI를 위해 개선된 데이터센터 네트워크 아키텍처에 이 솔루션을 구축하여 제공하는 데 가장 적합한 기술입니다. 개선 사항으로는 작업 완료 시간(JCT)을 최적화하기 위한 혼잡 관리, 로드 밸런싱, 지연 최소화 등이 있습니다. 마지막으로, 간소화된 관리 및 자동화가 안정성과 지속적인 성능을 보장해 줍니다.

패브릭 설계

AI 데이터센터 네트워킹에는 다양한 패브릭 설계가 사용될 수 있지만, 교육 프레임워크를 최적화하려면 애니투애니(any-to-any) 논블로킹 Clos 패브릭을 사용하는 것이 좋습니다. 이러한 패브릭은 NIC에서 리프를 통해 스파인까지 400Gbps(800Gbps로 바뀔 예정)의 일관된 네트워킹 속도를 사용하여 구축됩니다. 모델 크기와 GPU 규모에 따라 2개 레이어의 3단계 논블로킹 패브릭 또는 3개 레이어의 5단계 논블로킹 패브릭을 사용할 수 있습니다.

플로우 제어 및 혼잡 방지

패브릭 용량 외에도 설계 고려 사항을 추가하면 전체 패브릭의 안정성과 효율성을 향상할 수 있습니다. 이러한 고려 사항으로는 최적의 링크 수를 가진 적절한 규모의 패브릭 상호 연결과 플로우 불균형을 감지하여 수정함으로써 혼잡과 패킷 손실을 방지하는 기능 등이 있습니다. 명시적 혼잡 알림(ECN)과 양자화 방식의 데이터센터 혼잡 알림(DCQCN)에 우선순위 기반 플로우 제어까지 결합되면 플로우 불균형 문제를 해결하여 무손실 전송을 보장할 수 있습니다.

혼잡을 줄이기 위해 스위치에 동적 및 적응형 로드 밸런싱이 구축됩니다. 동적 로드 밸런싱은 플로우를 스위치에서 로컬로 재분배하여 균등하게 분산되도록 합니다. 적응형 로드 밸런싱은 플로우 포워딩 및 다음 홉 테이블을 모니터링하여 불균형을 식별하고 트래픽이 혼잡 경로를 피하게 해줍니다.

혼잡을 피할 수 없는 경우, ECN은 애플리케이션에 조기 알림을 제공합니다. 이 기간 동안 리프와 스파인은 ECN 가능 패킷을 업데이트하여 발신자에게 혼잡 상황을 알리는데, 이로 인해 발신자는 전송 중 패킷이 손실되지 않도록 전송 속도를 늦추게 됩니다. 엔드포인트가 시간 내에 반응하지 않으면 우선순위 기반 플로우 제어(PFC)를 통해 이더넷 수신자가 발신자와 버퍼 가용성에 대한 피드백을 공유할 수 있습니다. 마지막으로, 혼잡 기간 동안 리프와 스파인은 혼잡을 줄이고 패킷 손실을 방지하기 위해 특정 링크의 트래픽을 일시 중지하거나 제한할 수 있어 특정 트래픽 클래스에 대한 무손실 전송을 가능하게 해줍니다.

규모와 성능

이더넷은 고성능 컴퓨팅 및 AI 애플리케이션의 까다로운 요구 사항을 해결하기 위해 선택된 개방형 표준 솔루션으로 부상했습니다. 시간이 지나면서 이더넷은 더욱 빠르고 안정적이며 확장 가능하도록 진화하여(현재 800GbE 및 데이터센터 브리징(DCB)으로 발전하는 것 포함) 미션 크리티컬 AI 애플리케이션에 반드시 필요한 높은 데이터 처리량과 저지연 요구 사항을 처리하는 데 있어 선호하는 방법이 되었습니다.

자동화

자동화는 효과적인 AI 데이터센터 네트워킹 솔루션을 위한 마지막 단계이지만, 모든 자동화가 균등하게 생성되는 것은 아닙니다. 가치를 최대한 발휘하기 위해서는 자동화 소프트웨어가 경험 최우선 운영을 제공해야 합니다. 자동화 소프트웨어는 AI 데이터센터의 설계, 구축 및 관리에 지속적으로 사용됩니다. Day 0부터 Day 2+까지 AI 데이터센터 네트워크 라이프사이클을 자동화하고 검증합니다. 그 결과 반복적이고 지속적으로 검증되는 AI 데이터센터 설계 및 구축을 통해 사람의 실수를 제거할 뿐만 아니라 텔레메트리와 플로우 데이터를 활용함으로써 성능을 최적화하고, 사전 예방적 문제 해결을 용이하게 하며, 운영 중단을 방지하는 등의 효과를 얻을 수 있습니다.   

 

수십 년의 네트워킹 경험과 AIOps 혁신을 바탕으로 구축되는 주니퍼 AI 데이터센터 네트워킹 솔루션

주니퍼의 AI 데이터센터 네트워킹 솔루션은 수십 년에 걸친 네트워킹 경험과 AIOps 혁신을 바탕으로 구축되어 빠르고 관리하기 쉬운 개방형의 이더넷 기반 AI 네트워킹 솔루션을 완성합니다. 이러한 대용량의 확장 가능한 논블로킹 패브릭은 최고의 AI 성능과 가장 빠른 작업 완료 시간 및 가장 효율적인 GPU 활용도를 제공합니다. 주니퍼 AI 데이터센터 네트워킹 솔루션은 다음과 같은 세 가지 기본 아키텍처 요소를 활용합니다.

  • 대규모 확장이 가능한 성능 - 작업 완료 시간을 최적화하여 GPU 효율성 향상
  • 업계 표준 개방성 - 기존의 데이터센터 기술을 업계 주도의 에코시스템으로 확장하여 장기적으로 비용을 절감하고 혁신을 촉진
  • 경험 최우선 운영 - 백엔드, 프론트엔드 및 스토리지 패브릭을 위한 AI 데이터센터 설계와 구축 및 운영을 자동화 및 간소화

이러한 요소는 다음과 같은 방법으로 지원됩니다.

  • AI 트레이닝 프레임워크를 최적화하는 데 가장 다양한 용도를 제공하는 토폴로지인 애니 투 애니 논블로킹 Clos 패브릭을 활용하여 고용량의 무손실 AI 데이터센터 네트워크 설계
  • 스파인/슈퍼 스파인에 Juniper Express 실리콘을 사용하는 주니퍼 PTX 시리즈 라우터와 AI 서버 연결을 제공하기 위해 리프 스위치로 Broadcom의 Tomahawk ASIC를 사용하는 QFX 시리즈 스위치를 포함하는 고성능 스위치 및 라우터
  • 플로우 제어 및 충돌 방지를 통한 패브릭 효율성
  • 800GbE의 개방형 표준 기반 이더넷 규모 및 성능
  • Day 0~Day 2+ AI 데이터센터 네트워크 라이프사이클을 자동화하고 검증하기 위해 주니퍼 Apstra® 인텐트 기반 네트워킹 소프트웨어를 사용하는 광범위한 자동화

 

AI 데이터센터 네트워킹 FAQ

AI 데이터센터 네트워킹은 어떤 문제를 해결하나요?

AI 데이터센터 네트워킹은 일반적으로 생성형 AI와 대규모 딥러닝 AI 모델의 성능 요구 사항을 해결해 줍니다. 특히 AI 교육의 경우, AI 모델이 지속적으로 수집된 데이터로부터 학습하여 파라미터를 개선하는 반복적인 과정을 지원하기 위해 방대한 데이터 및 컴퓨팅 리소스가 필요합니다. 그래픽 처리 장치(GPU)는 AI 학습 및 추론 워크로드에 적합하지만 클러스터 단위로 작동해야 효율적입니다. 클러스터를 확장하면 AI 모델의 효율성이 향상되지만 비용도 증가하므로 클러스터의 효율성을 방해하지 않는 AI 데이터센터 네트워킹을 사용하는 것이 중요합니다.

대규모 모델을 교육하려면 심지어 수만 개에 이르는 많은 GPU 서버를(비용은 2023년 서버당 $400,000 초과) 연결해야 합니다. 그 결과, 작업 완료 시간을 최대한 단축하고 꼬리 응답 시간(이상값 AI 워크로드가 전체 AI 작업의 완료를 느려지게 하는 상황)을 최소화하거나 제거하는 것이 GPU 투자 수익을 최적화하는 데 핵심입니다. 이런 사용 사례에서 AI 데이터센터 네트워크는 100% 안정적이어야 하고 클러스터의 효율성 저하를 야기해서는 안 됩니다.   

AI 데이터센터 네트워킹에 있어 이더넷이 InfiniBand보다 좋은 장점은 무엇인가요?

초창기 고성능 컴퓨팅(HPC) 및 AI 트레이닝 네트워크에서는 독점 사용권이 있는 저지연 고속 네트워킹 기술인 InfiniBand가 서버와 스토리지 시스템 간의 빠르고 효율적인 통신 덕분에 인기를 얻었습니다. 오늘날에는 이에 대한 개방형 대안인 이더넷이 최신 AI 데이터센터 네트워킹 시장에서 상당한 관심을 끌고 있으며 앞으로 우세한 기술이 될 것으로 예상됩니다.

InfiniBand와 같이 독점 소유권을 가진 기술은 발전과 혁신을 가져올 수 있지만, 비싼 데다 경쟁에 의해 정해지는 수요 공급 시장이 비용을 규제할 수 없는 경우 프리미엄을 부과합니다. 또한 독점 소유권이 있는 InfiniBand 네트워크와 달리 이더넷을 구축하고 운영할 수 있는 네트워크 전문가의 인재 풀은 상당히 크고, 출처가 주로 Nvidia인 InfiniBand 기술에 비해 이러한 네트워크를 관리하는 데 사용할 수 있는 도구가 굉장히 광범위합니다.

IP 다음으로 이더넷은 세계에서 가장 널리 채택되는 네트워킹 기술입니다. 이더넷은 더욱 빠르고 안정적이며 확장 가능하도록 진화하여 AI 애플리케이션의 높은 데이터 처리량과 저지연 요구 사항을 처리하는 데 선호하는 방법이 되었습니다. 800GbE 및 데이터센터 브리징(DCB) 이더넷으로 발전하면서 대용량의 저지연 무손실 데이터 전송이 가능해짐에 따라 이더넷 패브릭은 우선순위가 높은 미션 크리티컬 AI 트래픽에 매우 적합한 선택이 되었습니다.

주니퍼는 어떤 AI 데이터센터 네트워킹 솔루션/프로덕션/기술을 제공하나요?

주니퍼의 AI 데이터센터 네트워킹 솔루션은 AI 트레이닝 프레임워크를 최적화하는 데 가장 다양한 용도를 제공하는 토폴로지인 애니 투 애니 논블로킹 Clos 패브릭을 사용하는 대용량 무손실 AI 데이터센터 네트워크 설계를 제공합니다. 이 솔루션은 최대 800GbE의 인터페이스를 갖춘 고성능 개방형 표준 기반 이더넷 스위치와 라우터를 활용합니다. 또한 주니퍼 Apstra 인텐트 기반 네트워킹 소프트웨어를 사용하여 Day 0부터 Day 2+까지 AI 데이터센터 네트워크 라이프사이클을 자동화하고 검증합니다.