DeepSeek V3: resultados récord en pruebas comparativas
13:57, 26.03.2025
El nuevo modelo DeepSeek apareció sin anunciarse en HuggingFace. Y sólo un día después, apareció un anuncio detallado con una descripción.
Benchmarks de Programación y Matemáticas
DeepSeek-V3-0324 muestra un rendimiento récord, y puntúa significativamente más alto que DeepSeek-V3 en todas las categorías siguientes:
- AIME: 59,4
- MMLU-Pro: 81,2
- LiveCodeBench: 49,2
- GPQA: 68,4
También en la mayoría de los resultados, V3-0324 puntúa mejor que Claude 3.5.
DeepSeek declaró que su nuevo producto también supera a Claude 3.7. A raíz de esta declaración, surgieron rumores sobre un posible nuevo modelo entrenado con Claude 3.7. Por el momento no se ha confirmado ni desmentido esta información.
Actualizaciones del modelo
En cuanto a las principales actualizaciones, se refieren a mejoras del código y ciertos cambios en las interfaces del juego y las páginas web. Además, se ha modificado la calidad de las llamadas a funciones.
También, el nuevo proyecto tiene una buena base en el procesamiento de resultados de búsqueda web y lectura de archivos. Además de esto, el nuevo modelo ha sido probado y funciona bien en Mac Studio.