Fibertop — мировой производитель оптических модулей для высокопроизводительных вычислений и центров обработки данных.
Двухканальная архитектура: залог успеха кластеров серверов для ИИ.
Главный недостаток одноканальных архитектур в кластерах из тысяч графических процессоров — это…
Ущерб от сбоев в обучении: отказ одного коммутатора магистральной сети приводит к огромным почасовым потерям для предприятия.
Проблемы, связанные с высокой задержкой: все операции Reduce требуют задержки синхронизации градиента.
Проблема надежности: традиционная древовидная топология имеет 7 потенциальных точек отказа.
Уроки, извлеченные из крови и слез: реальный случай компании, занимающейся искусственным интеллектом.
В третьем квартале 2024 года производитель не смог внедрить двойные каналы связи, что привело к следующим последствиям:
Сбой в работе порта коммутатора привел к прерыванию тренировки на 72 минуты.
Косвенные убытки: договорная неустойка из-за задержки поставки модели.
Двухрычажная конструкция является ключевым решением этой проблемы.
2. Панорамный анализ двухзвенной архитектуры листа и шипа.
Схема физической топологии (включая размещение оптических модулей)
Описание ключевых компонентов:
Основной коммутатор: полностью взаимосвязанная магистраль, должен поддерживать оптический модуль 800G OSFP и ECMP.
Коммутатор Leaf: каждый коммутатор соединен с двумя магистралями через двойные оптические модули для предотвращения отказа в одной точке.
Подключение к серверу: используйте активный оптический кабель 200G (AOC) для прямого подключения к Leaf.
III. Принцип работы двухзвенной стержневой технологии
1. Однородная и неоднородная адаптация связей
Для организации двухканальных соединений можно использовать «однородные каналы» (два канала одного типа, например, оба InfiniBand HDR) или «разнородные каналы» (например, один InfiniBand для связи с низкой задержкой и один Ethernet для передачи данных большой пропускной способности).
2. Динамическое распределение ресурсов канала связи
Механизм бесперебойного переключения: используйте «активный/резервный режим» или «балансировка нагрузки + динамическая регулировка»:
Активный/резервный режим: В нормальных условиях основной канал передает основной трафик, а резервный канал только отправляет пакеты подтверждения активности; в случае сбоя резервный канал в течение микросекунд берет на себя весь трафик, чтобы гарантировать сохранность данных.
Режим балансировки нагрузки: одновременно работают два канала, и после сбоя оставшийся канал автоматически принимает на себя весь трафик (протокол должен поддерживать перераспределение трафика во избежание перегрузки).
Оптические модули FIBERTOP напрямую от производителя | Доставка за 72 часа | Решения для интеллектуальных вычислительных центров | Возможность индивидуальной настройки