loading

Fibertop — мировой производитель оптических модулей для высокопроизводительных вычислений и центров обработки данных.

Продукты

«Двойная страховка» для серверов ИИ: подробное объяснение архитектуры двухканального оптического модуля.

Двухканальная архитектура: залог успеха кластеров серверов для ИИ.

 

Главный недостаток одноканальных архитектур в кластерах из тысяч графических процессоров — это…

 

Ущерб от сбоев в обучении: отказ одного коммутатора магистральной сети приводит к огромным почасовым потерям для предприятия.

 

Проблемы, связанные с высокой задержкой: все операции Reduce требуют задержки синхронизации градиента.

 

Проблема надежности: традиционная древовидная топология имеет 7 потенциальных точек отказа.

 

Уроки, извлеченные из крови и слез: реальный случай компании, занимающейся искусственным интеллектом.

В третьем квартале 2024 года производитель не смог внедрить двойные каналы связи, что привело к следующим последствиям:

 

Сбой в работе порта коммутатора привел к прерыванию тренировки на 72 минуты.

 

Косвенные убытки: договорная неустойка из-за задержки поставки модели.

 

Двухрычажная конструкция является ключевым решением этой проблемы.

 

2. Панорамный анализ двухзвенной архитектуры листа и шипа.

Схема физической топологии (включая размещение оптических модулей)

 Схема подключения оптического модуля для создания сервера ИИ

 

Описание ключевых компонентов:

 

Основной коммутатор: полностью взаимосвязанная магистраль, должен поддерживать оптический модуль 800G OSFP и ECMP.

 

Коммутатор Leaf: каждый коммутатор соединен с двумя магистралями через двойные оптические модули для предотвращения отказа в одной точке.

 

Подключение к серверу: используйте активный оптический кабель 200G (AOC) для прямого подключения к Leaf.

 

III. Принцип работы двухзвенной стержневой технологии

 

1. Однородная и неоднородная адаптация связей

 

Для организации двухканальных соединений можно использовать «однородные каналы» (два канала одного типа, например, оба InfiniBand HDR) или «разнородные каналы» (например, один InfiniBand для связи с низкой задержкой и один Ethernet для передачи данных большой пропускной способности).

 

2. Динамическое распределение ресурсов канала связи

 

 Динамическое распределение ресурсов каналов связи для вычислительных мощностей ИИ

 

Механизм бесперебойного переключения: используйте «активный/резервный режим» или «балансировка нагрузки + динамическая регулировка»:

 

Активный/резервный режим: В нормальных условиях основной канал передает основной трафик, а резервный канал только отправляет пакеты подтверждения активности; в случае сбоя резервный канал в течение микросекунд берет на себя весь трафик, чтобы гарантировать сохранность данных.

 

Режим балансировки нагрузки: одновременно работают два канала, и после сбоя оставшийся канал автоматически принимает на себя весь трафик (протокол должен поддерживать перераспределение трафика во избежание перегрузки).

 

Оптические модули FIBERTOP напрямую от производителя | Доставка за 72 часа | Решения для интеллектуальных вычислительных центров | Возможность индивидуальной настройки

предыдущий
Трансивер QSFP28 100G BIDI 80 км: технические характеристики и сценарии применения.
Технология трансивера OSFP 800G 100 м: объяснение принципа работы
следующий
Рекомендуется для вас
Свяжись с нами
Добавлять:
3-й этаж, корпус 3А, Научно-технологический парк Цзяань, улица Люсянь, дом 1, квартал 67, район Баоань, Шэньчжэнь
Тел.: +86 13316498100
sales@fibertoptech.com

WhatsApp: +86 13316498100

Связаться с нами

Customer service
detect