NVIDIA soluciona Blackwell: Una respuesta rápida al problema de la GPU
13:06, 24.10.2024
El CEO de NVIDIA, Jensen Huang, reconoció un defecto de diseño en la serie de GPU Blackwell, lo que provocó retrasos en el suministro de chips de IA. El problema involucraba un defecto funcional que resultó en un bajo rendimiento de los chips operativos. Según Huang, la culpa era completamente de NVIDIA y no de su socio de fabricación, TSMC, como habían sugerido algunas fuentes. Destacó que TSMC no solo no estaba involucrada en el problema, sino que también jugó un papel activo en ayudar a solucionarlo.
Mejoras en los Chips y el Papel de TSMC
El problema se resolvió mediante la modificación de las capas superiores de metal y los contactos de silicio en la GPU, lo que mejoró el rendimiento. La solución requirió esfuerzos significativos, dada la necesidad de fabricar simultáneamente siete tipos diferentes de chips desde cero. Los principales desafíos estuvieron relacionados con la tecnología de empaquetado CoWoS-L, que utiliza puentes de silicio LSI, el interposer RDL y los chiplets de GPU. Los problemas surgían debido a la expansión térmica de los componentes, lo que causaba la deformación del sistema. Normalmente, estas correcciones toman alrededor de 10 ciclos, pero NVIDIA y TSMC lograron resolver el problema en un tiempo récord.
Producción en Masa de los Chips Actualizados
Se espera que las GPU actualizadas Blackwell B100 y B200 entren en producción en masa a finales de octubre, con los envíos programados para comenzar a principios del próximo año. Aunque la producción de los chips mejorados está aumentando, NVIDIA aún anticipa una escasez de GPU de alto rendimiento en 2024, especialmente para los principales proveedores de servicios en la nube como AWS, Google y Microsoft.