Rockport Networks lanza 300 Gbps Switchless Fabric, revela 396
HogarHogar > Noticias > Rockport Networks lanza 300 Gbps Switchless Fabric, revela 396

Rockport Networks lanza 300 Gbps Switchless Fabric, revela 396

Sep 01, 2023

Por Tiffany Trader

27 de octubre de 2021

Rockport Networks emergió del sigilo esta semana con el lanzamiento de su arquitectura de red sin interruptor de 300 Gbps enfocada en las necesidades de la informática de alto rendimiento y el mercado de IA de escala avanzada. Los primeros clientes incluyen el Texas Advanced Computing Center (TACC), que instaló la tecnología de red en parte de su sistema Frontera, así como DiRAC/Durham University, que también está utilizando el equipo de red. El grupo de redes de alto rendimiento de Ohio State también está comprometido con Rockport, aportando su experiencia con el soporte de estándares.

La capacidad de conmutación distribuida de Rockport se implementa mediante su software patentado rNOS, el sistema operativo de red que se ejecuta en las tarjetas de red. El software no requiere ningún recurso del servidor y es invisible para el servidor, aparte de ver una NIC Ethernet de alto rendimiento. Las funciones de la red se distribuyen a cada nodo que está directamente conectado entre sí a través de cableado pasivo. Hay un plano de control distribuido y un plano de enrutamiento distribuido, pero los nodos son de autodescubrimiento, autoconfiguración y autorreparación, según Rockport. El software determina la mejor ruta a través de la red para minimizar la congestión y la latencia, mientras divide los paquetes en partes más pequeñas (Rockport las llama FLIT) para garantizar que los mensajes de alta prioridad no sean bloqueados por datos masivos.

Además de rNOS, la solución de Rockport Networks consta de tres partes:

El producto que se comercializa actualmente se basa en una versión avanzada del toroide 6D, con una gran diversidad de rutas, según el director de tecnología de Rockport, Matt Williams. Actualmente admite hasta 1500 nodos, pero la arquitectura está diseñada para escalar a más de 100 000 nodos, aprovechando topologías como Dragonfly, dijo el CTO.

Para probar y validar su solución, Rockport Networks ha estado trabajando con el Centro de Computación Avanzada de Texas (TACC) en Austin durante aproximadamente un año. Bajo los auspicios de su nuevo Rockport Center of Excellence, TACC instaló recientemente la red Rockport en 396 nodos de su supercomputadora Frontera. (El sistema Dell de aproximadamente 8000 nodos, clasificado como el número diez en la lista Top500, utiliza Nvidia-Mellanox HDR InfiniBand como su interconexión principal). investigación y computación de respuesta urgente, abordando eventos climáticos disruptivos y otros desastres a gran escala.

"TACC se complace en ser un Centro de Excelencia de Rockport. Ejecutamos diversas cargas de trabajo informáticas avanzadas que se basan en comunicaciones de baja latencia y gran ancho de banda para mantener el rendimiento a escala", afirmó Dan Stanzione, director de TACC y vicepresidente asociado de investigación. en UT-Austin. "Estamos emocionados de trabajar con una nueva tecnología innovadora como el diseño de red sin interruptor de Rockport.

"Nuestro equipo está viendo resultados iniciales prometedores en términos de congestión y control de latencia. Nos ha impresionado la simplicidad de la instalación y la administración. Esperamos continuar probando en cargas de trabajo nuevas y más grandes y expandir la red sin interruptor de Rockport aún más en nuestro centro de datos", agregó.

Williams informó que la instalación de Rockport en TACC tardó solo una semana y media en completarse. "Es literalmente un proceso de dos pasos", dijo. "Conecte la tarjeta y conecte el cable".

Williams le dijo a HPCwire que los clientes están viendo una mejora promedio del 28 por ciento con respecto a InfiniBand y una reducción de 3X en la latencia de extremo a extremo a escala, ejecutando sus aplicaciones bajo carga. "Bajo carga, tenemos el mejor rendimiento general y entregamos un tiempo de finalización de la carga de trabajo consistentemente mejor. Cada carga de trabajo es diferente, no siempre verá el 28 por ciento. A veces estaremos más altos o más bajos, dependiendo de qué tan sensible sea esa carga de trabajo a las condiciones de la red. Pero en promedio, estamos viendo alrededor del 28 por ciento".

Aclaró que estas cuatro pruebas (arriba) compararon la solución Rockport con la red InfiniBand de 100 Gbps, pero dijo que están viendo "resultados muy similares" en las pruebas internas con InfiniBand de 200 Gbps. La carga de trabajo de HPC más destacada emplea un código de hidrodinámica de malla móvil.

Presionado sobre la metodología y las comparaciones, Williams dijo, "lo importante acerca de cómo definimos el rendimiento es que está en producción, está bajo carga. A muchos proveedores de redes tradicionales les gusta centrarse en la infraestructura o el rendimiento de referencia sin procesar. Pero cuando los implementas en producción, y tiene varias cargas de trabajo ejecutándose a través de esta combinación de cargas de trabajo sensibles a la latencia y el ancho de banda, comienza a ver una degradación tremenda en el rendimiento con respecto a lo que vio en las pruebas de referencia. Por lo tanto, siempre hablamos de cómo funcionamos, cómo nos desempeñamos en entorno cargado, como verá en un entorno de producción de múltiples cargas de trabajo".

La tecnología de red de Rockport ha estado en pruebas con los clientes y ahora está lista para la producción a escala, según Williams. La HPC, la IA y el aprendizaje automático son mercados de cabeza de playa en los que la empresa se enfoca en aplicaciones de alto rendimiento que son muy sensibles al rendimiento de la red, principalmente la latencia, pero que también necesitan un rendimiento de ancho de banda constante.

"Es una solución sin pérdidas, pero seguimos aprovechando las interfaces de host estándar, por lo que para probar o implementar nuestra solución, nuestros clientes simplemente retiran la tarjeta IB existente, o una NIC Ethernet en algunos casos, y la reemplazan con nuestra tarjeta", dijo Williams. . "Ninguno de los cambios de software; ninguno de los controladores siquiera cambia. Parecemos ser una interfaz NIC Ethernet estándar con todas las descargas avanzadas que proporciona".

La solución que se envía a los clientes es la misma que está instalada en TACC. A diferencia de una infraestructura de red HPC tradicional, que prioriza la conectividad de los nodos dentro de un rack, con la configuración de Rockport, los nodos en diferentes racks se conectan directamente entre sí. La conclusión es que es menos sensible a la ubicación física. Williams señaló que la implementación de TACC abarca 11 bastidores de equipos en todo el centro de datos, lo que proporciona conexiones directas a esa distancia.

El anuncio obtuvo el apoyo de la firma analista de HPC Hyperion Research.

"Ha habido evidencia significativa que sugeriría que las arquitecturas sin interruptor tienen la capacidad de mejorar significativamente el nivel de rendimiento de las aplicaciones que tradicionalmente ha tenido un gran costo", afirmó Earl C. Joseph, director ejecutivo de Hyperion Research, como parte del lanzamiento de noticias. "Hacer que estos avances sean económicamente más accesibles debería beneficiar en gran medida a la comunidad de investigación global y, con suerte, mejorar las expectativas en relación con lo que podemos esperar de la red en lo que respecta al rendimiento de la investigación y el tiempo de obtención de resultados".

DiRAC también emitió declaraciones de apoyo en la Universidad de Durham y el Laboratorio de Computación en Red de la Universidad Estatal de Ohio.

"El equipo de Durham continúa ampliando los límites cuando se trata de descubrir tecnologías de red HPC de próxima generación", dijo Alastair Basden, DiRAC/Universidad de Durham, gerente técnico de COSMA HPC Cluster. "Basándonos en un toroide 6D, descubrimos que la red sin interruptor de Rockport es notablemente fácil de configurar e instalar. Analizamos códigos que se basan en comunicaciones punto a punto entre todos los nodos con diferentes tamaños de paquetes donde, por lo general, la congestión puede reducir el rendimiento en redes tradicionales Pudimos lograr una latencia baja constante bajo carga y esperamos ver el impacto que esto tendrá en simulaciones de cosmología a mayor escala".

"Nuestra misión es proporcionar a la comunidad informática avanzada bibliotecas estándar como MVAPICH2 que admitan el mejor rendimiento posible disponible en el mercado. Nuestra máxima prioridad es mantener nuestras bibliotecas actualizadas con enfoques innovadores, como la nueva arquitectura sin interruptor de Rockport Networks. ", dijo DK Panda, profesor y distinguido académico de ciencias de la computación en la Universidad Estatal de Ohio, y líder del Grupo de Investigación de Computación Basada en Red. "Esperamos con ansias nuestra asociación continua con Rockport para definir nuevos estándares para nuestros próximos lanzamientos".