Nvidia GB200 NVL72 aún no está listo para entrenar modelos avanzados de IA

watch 1m, 30s
views 2

15:24, 26.08.2025

Contenido del artículo
arrow

  • Por qué aún no es posible el entrenamiento
  • Recomendaciones de los analistas y enfoque de Nvidia
  • Perspectivas de futuro y consideraciones económicas

La agencia de análisis SemiAnalysis ha publicado un análisis de soluciones de servidor para entrenar inteligencia artificial y ha concluido que los aceleradores Nvidia H100 y H200, así como las TPU de Google, son actualmente más adecuados para entrenar modelos avanzados. Los racks de servidores GB200 NVL72 con las últimas GPU de Nvidia se enfrentan a problemas debido al panel de conmutación NVLink de cobre y a las herramientas de diagnóstico y depuración imperfectas, lo que provoca tiempos de inactividad.

Por qué aún no es posible el entrenamiento

En teoría, el fallo de un solo chip no es crítico, el NVL72 recomienda entrenar la IA en 64 GPU GB200 y mantener 8 más en reserva. Sin embargo, conectarlas requiere localizar rápidamente el fallo, lo que actualmente resulta difícil debido a las limitadas herramientas de diagnóstico. Como resultado, el proceso de entrenamiento se detiene, se revierten los puntos de control y se retrasan las reparaciones. SemiAnalysis señala que actualmente no se conocen ejemplos de entrenamiento de modelos avanzados completados en GB200 NVL72.

Recomendaciones de los analistas y enfoque de Nvidia

Por el momento, los analistas aconsejan utilizar GB200 NVL72 principalmente para la inferencia, ejecutando modelos ya entrenados. Nvidia también hace hincapié en la inferencia en sus últimos materiales, aunque los primeros anuncios sugerían un trabajo paralelo en el entrenamiento y la ejecución de modelos.

Perspectivas de futuro y consideraciones económicas

SemiAnalysis prevé que Nvidia podrá resolver los problemas con NVLink y el software a finales de año. Sin embargo, el coste de propiedad de una sola GPU GB200 es entre 1,6 y 1,7 veces superior al de la H100. Para justificar la inversión en nuevos aceleradores, estos deben demostrar un rendimiento al menos 1,6 veces superior con un tiempo de inactividad similar.

Compartir

¿Te ha resultado útil este artículo?

Ofertas populares de VPS

Otros artículos sobre este tema

cookie

¿Acepta las cookies y la política de privacidad?

Utilizamos cookies para asegurar que damos la mejor experiencia en nuestro sitio web. Si continúa sin cambiar la configuración, asumiremos que acepta recibir todas las cookies del sitio web HostZealot.