La nueva arquitectura Blackwell de Nvidia, un nuevo hito en la evolución de las GPU

1m, 56s

09:22, 21.03.2024

En el evento GTC March 20224, NVIDIA presentó una nueva arquitectura de chips Blackwell, así como las GPU B200 basadas en ella junto con los chips Grace Blackwell GB200, en los que se combinarán ambas arquitecturas.

La GPU B200 cuenta con 208.000 millones de transistores frente a los 80.000 millones de la H100/H200, utilizada anteriormente en los centros de datos, y ofrece 20 petaflops de rendimiento de IA por cada GPU (frente a los 4 petaflops de la H100). Este chip contará con 192 GB de memoria HBM3e con hasta 8 TBps de ancho de banda.

A diferencia de las GPU más convencionales, Blackwell B200 es una especie de procesador doble, ya que está compuesto por dos cristales conjuntos que funcionan como un único procesador CUDA, estando conectados con NV-HBI NVIDIA High Bandwidth Interface a 10 TBps. Blackwell B200 se fabrica utilizando el proceso 4NP de TSMC. Los cristales incorporan pilas HMB3e, con 24 GB y 1 TBps de ancho de banda cada una.

Por ahora, la solución más potente anunciada es el chip GB200, compuesto por dos GPU B200.

Para conectar varios nodos, Nvidia presenta la quinta generación de chips NVLink con un ancho de banda bidireccional de 1,8 TBps, compuesto por 50.000 millones de transistores y fabricado mediante el proceso técnico 4NP de TSMC.

Cada GPU Blackwell dispone de 18 enlaces a través de NVLink, es decir, 18 veces más que en el caso de la H100. Como cada enlace tiene 50 GBps de ancho de banda bidireccional, lo que significa 100 GBps por conexión, los grandes grupos de nodos de GPU funcionarán casi como una enorme unidad de GPU.

Además, los chips con nuevas interfaces conforman el servidor NVIDIA B200 NVL72, que es una solución de rack completa con 18 servidores 1U, cada uno de ellos con chips GB200 y una CPU Grace por cada dos GPU B200. Esto significa que cada nodo de computación del GB200 NVL72 tiene dos GB200 Superchips, y cada rack contiene dos CPU Grace y cuatro GPU B200 que ofrecen un rendimiento de 80 petaflops FP4 AI y 40 petaflops FP8 AI.

Un GB200 completo tiene 36 CPU Grace y 72 GPU Blackwell con 720 petaflops FP8 y 1440 petaflops FP4. Los 130 TBps de ancho de banda multinodo de este servidor son capaces de procesar hasta 27 billones de parámetros de modelos lingüísticos de IA.