loading

Fibertop - グローバル光モジュールメーカー - HPC、データセンター

製品

AIサーバーのための「二重保険」:光モジュールデュアルリンクアーキテクチャの詳細解説

デュアルリンク設計:AIサーバークラスターの生命線

 

1000枚のGPUクラスタにおけるシングルリンクアーキテクチャの致命的な欠陥――

 

トレーニング中断コスト:単一のスパインスイッチの故障は、企業にとって莫大な時間的損失をもたらす。

 

レイテンシに敏感な課題:すべてのReduce操作には勾配同期のレイテンシが必要

 

信頼性のボトルネック:従来のツリー型トポロジーには、7つの潜在的な単一障害点リンクが存在する。

 

血と涙から学んだ教訓:あるAI企業の実例

2024年第3四半期に、あるメーカーがデュアルリンクの導入に失敗し、その結果、以下の事態が発生した。

 

スイッチポートの故障により、72分間のトレーニング中断が発生した。

 

間接的損失:モデル納品遅延による契約上の違約金

 

デュアルリンク設計こそが、この問題点を解決する核心的なソリューションである。

 

2. 二重連結葉棘構造のパノラマ解析

物理トポロジー図(光モジュールの配置を含む)

AIサーバー構築用光モジュールの接続図

 

主要構成要素の説明:

 

スパインスイッチ:完全相互接続バックボーン、800G OSFP光モジュールおよびECMPをサポートする必要があります

 

リーフスイッチ:各スイッチは、単一障害点を回避するために、デュアル光モジュールを介して2つのスパインに接続されています。

 

サーバー接続:200Gアクティブ光ケーブル(AOC)を使用してLeafに直接接続します。

 

III.デュアルリンクコア技術の原理

 

1. 同質および異質リンク適応

 

デュアルリンクでは、「同種リンク」(InfiniBand HDRなど、同じタイプのリンクを2つ使用する場合)または「異種リンク」(低遅延通信用のInfiniBandと大容量データ伝送用のEthernetなど)を使用できます。

 

2. 動的リンクリソース割り当て

 

AIコンピューティング能力のための動的リンクリソース割り当て

 

シームレスな切り替えメカニズム:「アクティブ/スタンバイモード」または「負荷分散+動的調整」を使用する。

 

アクティブ/スタンバイモード:通常の状態では、プライマリリンクが主要なトラフィックを伝送し、スタンバイリンクはハートビートパケットのみを送信します。障害が発生した場合は、スタンバイリンクがマイクロ秒単位で全てのトラフィックを引き継ぎ、データの損失を防ぎます。

 

負荷分散モード:2つのリンクが同時に動作し、障害発生後には、残りのリンクが自動的にすべてのトラフィックを引き継ぎます(プロトコル層は輻輳を回避するためにトラフィックの再分配をサポートする必要があります)。

 

FIBERTOP光モジュール 製造元直販|72時間以内出荷|スマートコンピューティングセンターソリューション|カスタマイズ可能

prev prev
100G BIDI 80km QSFP28トランシーバー:技術詳細とアプリケーションシナリオ
OSFP 800G 100mトランシーバー技術解説
あなたにお勧めします
私たちと連絡を取ってください
追加:
深セン市宝安区柳仙一路67ブロック嘉安科技園3A棟3階
電話番号:+86 13316498100
sales@fibertoptech.com

WhatsApp: +86 13316498100

お問い合わせ

Customer service
detect