loading

Fibertop - Fabricante global de módulos ópticos - HPC, Centros de datos

"Doble protección" para servidores de IA: explicación detallada de la arquitectura de doble enlace del módulo óptico.

Diseño de doble enlace: la clave para el éxito de los clústeres de servidores de IA

 

El defecto fatal de las arquitecturas de enlace único en clústeres de GPU de mil tarjetas: el...

 

Costo de interrupción de la capacitación: una sola falla de conmutador Spine resulta en enormes pérdidas horarias para la empresa.

 

Desafíos sensibles a la latencia: Las operaciones AllReduce requieren latencia de sincronización de gradiente.

 

Cuello de botella de fiabilidad: la topología de árbol tradicional tiene 7 enlaces potenciales de punto único de fallo.

 

Lecciones aprendidas a base de sangre y lágrimas: Un caso real de una empresa de IA

En el tercer trimestre de 2024, un fabricante no logró implementar enlaces duales, lo que resultó en:

 

Un fallo en el puerto del conmutador provocó 72 minutos de interrupción en el entrenamiento.

 

Pérdida indirecta: penalización contractual por retraso en la entrega del modelo.

 

El diseño de doble enlace es la solución principal a este problema.

 

2. Análisis panorámico de la arquitectura de hojas y espinas de doble enlace

Diagrama de topología física (incluido el despliegue de módulos ópticos)

 Diagrama de conexión del módulo óptico para construir un servidor de IA

 

Descripción del componente clave:

 

Conmutador Spine: red troncal totalmente interconectada, debe ser compatible con el módulo óptico OSFP de 800G y ECMP.

 

Conmutador de hoja: cada conmutador está conectado a dos troncales mediante módulos ópticos duales para evitar un punto único de fallo.

 

Conexión del servidor: utilice un cable óptico activo (AOC) de 200G para conectarse directamente a Leaf.

 

III. Principio de la tecnología de núcleo de doble enlace

 

1. Adaptación de enlaces homogéneos y heterogéneos

 

Los enlaces duales pueden utilizar "enlaces homogéneos" (dos enlaces del mismo tipo, como ambos InfiniBand HDR) o "enlaces heterogéneos" (como un InfiniBand para comunicación de baja latencia y un Ethernet para transmisión de datos de gran capacidad).

 

2. Asignación dinámica de recursos de enlace

 

 Asignación dinámica de recursos de enlace para potencia de cálculo de IA

 

Mecanismo de conmutación sin interrupciones: utilice el "modo activo/en espera" o el "equilibrio de carga + ajuste dinámico":

 

Modo activo/en espera: En condiciones normales, el enlace principal transporta el tráfico principal y el enlace en espera solo transmite paquetes de latido; en caso de fallo, el enlace en espera toma el control de todo el tráfico en microsegundos para garantizar que no se pierdan datos.

 

Modo de equilibrio de carga: Dos enlaces funcionan simultáneamente, y el enlace que sobrevive asume automáticamente todo el tráfico tras un fallo (la capa de protocolo debe admitir la redistribución del tráfico para evitar la congestión).

 

Módulos ópticos FIBERTOP: Venta directa de fábrica | Envío en 72 horas | Soluciones para centros de computación inteligentes | Personalizable

aviar
Transceptor QSFP28 de 100G BIDI y 80 km: Detalles técnicos y escenarios de aplicación
Explicación de la tecnología de transceptores OSFP 800G de 100 m
próximo
Recomendado para ti
Póngase en contacto con nosotros
Agregar:
3.ª planta, Edificio 3A, Parque Científico y Tecnológico de Jia'an, Calle Liuxian n.º 1, Bloque 67, Distrito de Baoan, Shenzhen
Teléfono: +86 13316498100
sales@fibertoptech.com

WhatsApp: +86 13316498100

Contáctanos

Customer service
detect