Fibertop - Fabricante global de módulos ópticos - HPC, Centros de datos
Diseño de doble enlace: la clave para el éxito de los clústeres de servidores de IA
El defecto fatal de las arquitecturas de enlace único en clústeres de GPU de mil tarjetas: el...
Costo de interrupción de la capacitación: una sola falla de conmutador Spine resulta en enormes pérdidas horarias para la empresa.
Desafíos sensibles a la latencia: Las operaciones AllReduce requieren latencia de sincronización de gradiente.
Cuello de botella de fiabilidad: la topología de árbol tradicional tiene 7 enlaces potenciales de punto único de fallo.
Lecciones aprendidas a base de sangre y lágrimas: Un caso real de una empresa de IA
En el tercer trimestre de 2024, un fabricante no logró implementar enlaces duales, lo que resultó en:
Un fallo en el puerto del conmutador provocó 72 minutos de interrupción en el entrenamiento.
Pérdida indirecta: penalización contractual por retraso en la entrega del modelo.
El diseño de doble enlace es la solución principal a este problema.
2. Análisis panorámico de la arquitectura de hojas y espinas de doble enlace
Diagrama de topología física (incluido el despliegue de módulos ópticos)
Descripción del componente clave:
Conmutador Spine: red troncal totalmente interconectada, debe ser compatible con el módulo óptico OSFP de 800G y ECMP.
Conmutador de hoja: cada conmutador está conectado a dos troncales mediante módulos ópticos duales para evitar un punto único de fallo.
Conexión del servidor: utilice un cable óptico activo (AOC) de 200G para conectarse directamente a Leaf.
III. Principio de la tecnología de núcleo de doble enlace
1. Adaptación de enlaces homogéneos y heterogéneos
Los enlaces duales pueden utilizar "enlaces homogéneos" (dos enlaces del mismo tipo, como ambos InfiniBand HDR) o "enlaces heterogéneos" (como un InfiniBand para comunicación de baja latencia y un Ethernet para transmisión de datos de gran capacidad).
2. Asignación dinámica de recursos de enlace
Mecanismo de conmutación sin interrupciones: utilice el "modo activo/en espera" o el "equilibrio de carga + ajuste dinámico":
Modo activo/en espera: En condiciones normales, el enlace principal transporta el tráfico principal y el enlace en espera solo transmite paquetes de latido; en caso de fallo, el enlace en espera toma el control de todo el tráfico en microsegundos para garantizar que no se pierdan datos.
Modo de equilibrio de carga: Dos enlaces funcionan simultáneamente, y el enlace que sobrevive asume automáticamente todo el tráfico tras un fallo (la capa de protocolo debe admitir la redistribución del tráfico para evitar la congestión).
Módulos ópticos FIBERTOP: Venta directa de fábrica | Envío en 72 horas | Soluciones para centros de computación inteligentes | Personalizable