Red Hat lanza llm-d, una plataforma basada en Kubernetes para la inferencia escalable de IA
15:21, 22.05.2025
Red Hat ha presentado llm-d, un nuevo proyecto de código abierto diseñado para la inferencia distribuida de alto rendimiento de grandes modelos de lenguaje (LLM). La plataforma se desarrolla sobre Kubernetes y se centra en simplificar el escalado de la IA generativa. El código fuente está disponible en GitHub bajo la licencia Apache 2.0.
Características principales de llm-d
Las principales características de la plataforma incluyen
- Programador de inferencias optimizado para vLLM;
- Arquitectura de servicios desagregada;
- Reutilización de cachés de prefijos;
- Escalado flexible en función del tráfico, las tareas y los recursos disponibles.
Cooperación con los principales actores de la industria de la IA
El desarrollo se lleva a cabo en colaboración con empresas como Nvidia, AMD, Intel, IBM Research, Google Cloud, CoreWeave y Hugging Face, entre otras. Esta cooperación subraya la seriedad del enfoque de llm-d y el potencial de la plataforma como estándar de la industria.
Tecnología y arquitectura de llm-d
El proyecto utiliza la biblioteca vLLM para la inferencia distribuida, así como componentes como LMCache para la descarga de caché KV, enrutamiento inteligente del tráfico habilitado por IA, API de comunicación altamente eficientes y escalado automático a la carga y la infraestructura.
Todo ello permite adaptar el sistema a diferentes escenarios de uso y requisitos de rendimiento. Y el lanzamiento de llm-d puede suponer un paso importante hacia la democratización de los potentes sistemas de IA y hacerlos accesibles a un amplio público de desarrolladores e investigadores.