El potente modelo multimodal Qwen3-VL de Alibaba
15:54, 15.10.2025
El nuevo modelo Qwen3-VL ha sido lanzado recientemente por Alibaba. Está disponible en dos versiones y funciona con imágenes y texto, admite contenido de 256 000 tokens y su longitud se puede ampliar hasta 1 millón.
Características principales de Qwen3-VL
La compatibilidad con léxico abierto es una de las principales características del nuevo modelo. Qwen3-VL reconoce muchos detalles, como objetos arquitectónicos, logotipos, productos de consumo y mucho más. Por lo tanto, no solo es posible analizar, sino también interpretar el contexto.
El proyecto ofrece dos modos de funcionamiento principales: Thinking e Instruct. Thinking se utiliza para tareas computacionales más complejas, en las que es necesario aplicar un razonamiento por etapas. Instruct es necesario para generar procesos interactivos, como código, texto o análisis de datos sencillos.
El sistema OCR está entrenado con información de mala calidad escaneada. El modelo puede reconocer fácilmente datos de escaneos inclinados o ligeramente borrosos y admite 32 idiomas.
Qwen3-VL está disponible bajo la licencia Apache 2.0, lo que la convierte en la modelo más accesible y potente entre las opciones de código abierto. El código ya está disponible en Hugging Face, y en breve se preparará la integración de la modelo con los servicios ModelScope y AI Workspace.