loading

Fibertop - 글로벌 광 모듈 제조업체 - HPC, 데이터 센터

AI 서버를 위한 "이중 안전 장치": 광 모듈 듀얼 링크 아키텍처에 대한 상세 설명

듀얼링크 설계: AI 서버 클러스터의 생명선

 

수천 개의 GPU 카드 클러스터에서 단일 링크 아키텍처의 치명적인 결함 - 바로 이것입니다—

 

교육 중단 비용: 스파인 스위치 하나라도 고장 나면 기업에 엄청난 시간당 손실이 발생합니다.

 

지연 시간에 민감한 문제: AllReduce 연산에는 그래디언트 동기화 지연 시간이 필요합니다.

 

신뢰성 병목 현상: 기존 트리 토폴로지에는 잠재적인 단일 장애 지점 링크가 7개 있습니다.

 

피와 눈물에서 얻은 교훈: AI 기업의 실제 사례

2024년 3분기에 한 제조업체가 듀얼 링크를 배포하지 못하여 다음과 같은 결과가 발생했습니다.

 

스위치 포트 오류로 인해 72분간 교육이 중단되었습니다.

 

간접 손실: 모델 납품 지연으로 인한 계약상 위약금

 

듀얼링크 설계는 이러한 문제점을 해결하는 핵심 솔루션입니다.

 

2. 이중 연결 잎-가시 구조의 파노라마 분석

물리적 토폴로지 다이어그램(광학 모듈 배치 포함)

 AI 서버 연결 다이어그램 구축용 광학 모듈

 

주요 구성 요소 설명:

 

스파인 스위치: 완전 상호 연결 백본, 800G OSFP 광 모듈 및 ECMP를 지원해야 함

 

리프 스위치: 각 스위치는 단일 장애 지점을 방지하기 위해 이중 광 모듈을 통해 두 개의 스파인에 연결됩니다.

 

서버 연결: 200G 액티브 광케이블(AOC)을 사용하여 Leaf에 직접 연결합니다.

 

III. 듀얼링크 코어 기술 원리

 

1. 동질적 및 이질적 링크 적응

 

듀얼 링크는 "동종 링크"(동일한 유형의 링크 두 개, 예를 들어 InfiniBand HDR 두 개) 또는 "이종 링크"(예: 저지연 통신용 InfiniBand 하나와 대용량 데이터 전송용 이더넷 하나)를 사용할 수 있습니다.

 

2. 동적 링크 리소스 할당

 

 AI 컴퓨팅 성능을 위한 동적 링크 리소스 할당

 

원활한 전환 메커니즘: "활성/대기 모드" 또는 "부하 분산 + 동적 조정"을 사용하십시오.

 

활성/대기 모드: 정상적인 상황에서는 기본 링크가 주요 트래픽을 처리하고 대기 링크는 하트비트 패킷만 전송합니다. 장애 발생 시 대기 링크가 수 마이크로초 내에 모든 트래픽을 인계받아 데이터 손실을 방지합니다.

 

로드 밸런싱 모드: 두 개의 링크가 동시에 작동하며, 장애 발생 후 남은 링크가 자동으로 모든 트래픽을 인계받습니다(혼잡을 방지하기 위해 프로토콜 계층에서 트래픽 재분배를 지원해야 합니다).

 

FIBERTOP 광 모듈 공급원 공장 직송 | 72시간 내 배송 | 스마트 컴퓨팅 센터 솔루션 | 맞춤형 제공

예전
100G BIDI 80km QSFP28 트랜시버: 기술 사양 및 응용 시나리오
OSFP 800G 100m 트랜시버 기술 설명
다음
당신을 위해 추천 된
우리와 연락을 취하십시오
추가하다:
선전시 바오안구 류셴1로 67블록 자안 과학기술단지 3A동 3층
전화: +86 13316498100
sales@fibertoptech.com

왓츠앱: +86 13316498100

문의하기

Customer service
detect