デュアルリンク設計:AIサーバークラスターの生命線
1000枚のGPUクラスタにおけるシングルリンクアーキテクチャの致命的な欠陥――
トレーニング中断コスト:単一のスパインスイッチの故障は、企業にとって莫大な時間的損失をもたらす。
レイテンシに敏感な課題:すべてのReduce操作には勾配同期のレイテンシが必要
信頼性のボトルネック:従来のツリー型トポロジーには、7つの潜在的な単一障害点リンクが存在する。
血と涙から学んだ教訓:あるAI企業の実例
2024年第3四半期に、あるメーカーがデュアルリンクの導入に失敗し、その結果、以下の事態が発生した。
スイッチポートの故障により、72分間のトレーニング中断が発生した。
間接的損失:モデル納品遅延による契約上の違約金
デュアルリンク設計こそが、この問題点を解決する核心的なソリューションである。
2. 二重連結葉棘構造のパノラマ解析
物理トポロジー図(光モジュールの配置を含む)
主要構成要素の説明:
スパインスイッチ:完全相互接続バックボーン、800G OSFP光モジュールおよびECMPをサポートする必要があります
リーフスイッチ:各スイッチは、単一障害点を回避するために、デュアル光モジュールを介して2つのスパインに接続されています。
サーバー接続:200Gアクティブ光ケーブル(AOC)を使用してLeafに直接接続します。
III.デュアルリンクコア技術の原理
1. 同質および異質リンク適応
デュアルリンクでは、「同種リンク」(InfiniBand HDRなど、同じタイプのリンクを2つ使用する場合)または「異種リンク」(低遅延通信用のInfiniBandと大容量データ伝送用のEthernetなど)を使用できます。
2. 動的リンクリソース割り当て
シームレスな切り替えメカニズム:「アクティブ/スタンバイモード」または「負荷分散+動的調整」を使用する。
アクティブ/スタンバイモード:通常の状態では、プライマリリンクが主要なトラフィックを伝送し、スタンバイリンクはハートビートパケットのみを送信します。障害が発生した場合は、スタンバイリンクがマイクロ秒単位で全てのトラフィックを引き継ぎ、データの損失を防ぎます。
負荷分散モード:2つのリンクが同時に動作し、障害発生後には、残りのリンクが自動的にすべてのトラフィックを引き継ぎます(プロトコル層は輻輳を回避するためにトラフィックの再分配をサポートする必要があります)。
FIBERTOP光モジュール 製造元直販|72時間以内出荷|スマートコンピューティングセンターソリューション|カスタマイズ可能