Análisis técnico

Qwen3.5 y Fast-dLLM v2:
el LLM local ya es una realidad seria

El equipo de investigación de Screen Art ha puesto a prueba dos familias de modelos de lenguaje en hardware doméstico de gama alta. Los resultados cambian la manera de pensar la IA local en 2026.

 

Durante años, la narrativa fue sencilla: los modelos de lenguaje potentes vivían en la nube y los modelos locales eran juguetes para entusiastas. En febrero y marzo de 2026, esa narrativa se ha roto. Con el lanzamiento de Qwen3.5 por parte de Alibaba Cloud y la publicación de Fast-dLLM v2 por parte del laboratorio NVLabs de NVIDIA, disponemos de modelos open source que compiten de frente con las APIs de pago, ejecutándose en hardware que muchos creadores y desarrolladores ya tienen en casa.

Lo que sigue son los resultados de pruebas reales realizadas por el equipo de investigación de Screen Art sobre una RTX 3090 Ti con 24 GB de VRAM. Todos los benchmarks que aparecen en este artículo son mediciones propias, no datos de laboratorio ni cifras tomadas de terceros.

🔬
Grupo de investigación
Estas pruebas han sido realizadas por el equipo de Screen Art, grupo de investigación aplicada en inteligencia artificial, cine y artes digitales. Todos los benchmarks son mediciones directas sobre hardware propio; los resultados pueden variar según configuración de sistema, versión de drivers y carga concurrente de GPU.
Concepto clave

¿Qué significa tok/s?

Los modelos de lenguaje no generan palabras, sino tokens: fragmentos de texto que pueden ser una palabra completa, una sílaba, un signo de puntuación o incluso un espacio. El término tokens por segundo (tok/s) mide cuántos de estos fragmentos genera el modelo en cada segundo de inferencia.

Para hacerse una idea práctica: una respuesta típica de una IA en chat tiene entre 200 y 600 tokens. Con 30 tok/s se obtiene esa respuesta en 7–20 segundos. Con 145 tok/s, la respuesta aparece en 1–4 segundos, prácticamente en tiempo real.

Lento (~5)
 
API saturada
Usable (~30)
 
30 tok/s
Ágil (~65)
 
65 tok/s
Veloz (~145)
 
145 tok/s

Fast-dLLM v2: el enfoque de NVIDIA

Fast-dLLM v2 — NVLabs / NVIDIA Research
Paper: 30 Sep 2025 · Open source: 8 Oct 2025 · Aceptado ICLR-2026

Dos tamaños disponibles: 1.5B y 7B parámetros. Licencia Apache 2.0. Base: Qwen2.5-Instruct adaptado mediante fine-tuning de difusión con solo ~1.000 millones de tokens.

Los grandes modelos de lenguaje tienen un problema estructural: generan texto de izquierda a derecha, un token cada vez. Este diseño autorregresivo es muy preciso pero limita la velocidad máxima. Fast-dLLM v2 propone un enfoque distinto: en lugar de generar cada token de forma secuencial, agrupa los tokens en bloques y los genera en paralelo, aprovechando la GPU de manera mucho más eficiente.

El resultado es un modelo que puede ser hasta 2,5 veces más rápido que su base Qwen2.5-7B sin pérdida apreciable de calidad. En la práctica, sobre una RTX 3090 Ti, los números son los siguientes:

Fast-dLLM v2 1.5B

VRAM: 3,1 GBVelocidad pico: 145 tok/sContexto: 32k tokens

El modelo más ligero de la familia cabe en tarjetas gráficas de gama media sin problema. Su velocidad pico de 145 tok/s a 512 tokens de salida lo sitúa entre los modelos locales más rápidos que se pueden ejecutar hoy. La calidad de las respuestas es funcional —correcta en tareas sencillas, con cierta limitación en razonamiento complejo— pero la velocidad es genuinamente impresionante para su tamaño.

Fast-dLLM v2 7B

VRAM: 15,2 GBVelocidad pico: 65 tok/sContexto: 32k tokens

El modelo de 7 mil millones de parámetros requiere una tarjeta con al menos 16 GB de VRAM —el límite habitual de una RTX 4080 o superior. Su punto óptimo de velocidad está en salidas de 512 tokens, donde alcanza 65 tok/s. Es notable: genera respuestas de calidad comparable a modelos de chat de referencia, a una velocidad que convierte la espera en algo transparente para el usuario. La limitación principal sigue siendo el contexto: 32.000 tokens es suficiente para la mayoría de tareas, pero se queda corto si se trabaja con documentos largos.

Un detalle técnico relevante: la velocidad de Fast-dLLM no es lineal. Crece entre los 128 y los 512 tokens de salida, y luego desciende en secuencias muy largas. Esto es inherente al mecanismo de difusión en bloques y hay que tenerlo en cuenta en casos de uso donde el modelo debe generar textos muy extensos.


Qwen3.5-9B: el salto cualitativo de Alibaba

Qwen3.5-9B — Alibaba Cloud / Qwen Team
Familia 397B lanzada: 16 Feb 2026 · Versión 9B disponible: 2 Mar 2026

Modelo multimodal nativo (texto + imagen + vídeo). Arquitectura híbrida: Gated Delta Networks + sparse MoE. Licencia Apache 2.0.

Qwen3.5 no es una actualización incremental. Es una reescritura de arquitectura. Donde los modelos anteriores usaban adaptadores de visión pegados a un modelo de texto, Qwen3.5 fue entrenado desde cero con texto, imágenes y vídeo al mismo tiempo —lo que se llama early fusion. El resultado es un modelo que entiende las imágenes no como algo añadido, sino como un idioma más.

Para las pruebas de rendimiento nos hemos centrado en el modelo de 9.000 millones de parámetros, el tamaño más manejable de la familia para hardware de consumo. Lo probamos en tres configuraciones distintas:

Configuración 1: bf16 con flash-linear-attention

VRAM: 17,9 GBVelocidad: 40,7 tok/sContexto: 262k tokens

La precisión completa en 16 bits ofrece la calidad máxima del modelo. A 40 tok/s la experiencia es muy cómoda. Lo más llamativo es que la velocidad es prácticamente constante independientemente de si se generan 128 o 1.024 tokens —algo que diferencia a los modelos autorregresivos clásicos de los basados en arquitecturas lineales como Gated Delta Networks. La biblioteca flash-linear-attention mejora el rendimiento en un 18% respecto a la inferencia estándar.

Configuración 2: cuantización 4-bit NF4

VRAM: 7,65 GBVelocidad: 32 tok/sContexto: 262k tokens

La cuantización a 4 bits reduce el modelo a menos de la mitad del espacio en memoria con una pérdida de calidad prácticamente imperceptible en tests reales de conversación, redacción y razonamiento en español. Con solo 7,65 GB de VRAM puede coexistir con otros procesos de IA corriendo en paralelo en la misma tarjeta gráfica.

Idiomas incluidos por defectoQwen3.5 soporta201 idiomas y dialectosde forma nativa, frente a los 119 del modelo anterior. Entre los principales: inglés, español (castellano y variedades latinoamericanas), francés, alemán, italiano, portugués, árabe, chino (simplificado y tradicional), japonés, coreano, ruso, hindi, catalán y decenas de lenguas de África subsahariana y Asia meridional que los modelos occidentales suelen ignorar. Este soporte multilingüe no es un módulo separado —está integrado en la arquitectura principal y refleja un vocabulario de 250.000 tokens, frente a los 148.000 de generaciones anteriores.

Comparativa directa

Modelo Lanzamiento VRAM Velocidad @512t Contexto Multimodal Calidad
Fast-dLLM v2 1.5B Oct 2025 3,1 GB 145 tok/s 32k No Básica
Fast-dLLM v2 7B Oct 2025 15,2 GB 65 tok/s 32k No Buena
Qwen3.5-9B bf16+FLA 2 Mar 2026 17,9 GB 40,7 tok/s 262k Excelente
Qwen3.5-9B 4-bit NF4 2 Mar 2026 7,65 GB 32 tok/s 262k Excelente
Qwen2.5-Omni 7B 4-bit Mar 2025 6,91 GB  46,5 tok/s 32.768 Texto+Imagen ✓ · Voz ✗ Excelente
↑ Fila marcada = configuración recomendada para producción. Pruebas en RTX 3090 Ti (24 GB VRAM).
Velocidad @512t = tokens por segundo con salidas de 512 tokens. Fast-dLLM varía con la longitud (ver texto).
VRAM = modelo en reposo. Durante generación el overhead es mínimo (+0,05–0,16 GB). Con historial largo de chat el KV-cache crece.
 Qwen2.5-Omni 4-bit: 6,91 GB en uso estable, pero necesita ~21 GB temporalmente durante la cuantización inicial al cargar el modelo. Requiere GPU con 24 GB para la primera carga.

También probado · Qwen2.5-Omni-7B — 4-bit BitsAndBytes NF4

Qwen2.5-Omni: texto, imagen y voz en un solo modelo

Existe una rama paralela de la familia Qwen orientada a la interacción multimodal completa: no solo texto e imagen, sino también audio en tiempo real y voz generada. Qwen2.5-Omni fue lanzado el 27 de marzo de 2025 y está disponible en versiones de 3B y 7B parámetros.

📝Texto
🖼️Imagen
🎬Vídeo
🎤Audio in
🔊Voz out

Lo probamos en cuantización 4-bit NF4 con BitsAndBytes sobre la misma RTX 3090 Ti. Los resultados son en su mayoría muy positivos, con una excepción importante:

✓ Funciona
VRAM estable: 6,91 GB
VRAM pico (carga inicial): ~21 GB ⚠
Texto español: 46,5 tok/s
Descripción de imagen: 27,6 tok/s
Calidad visual: describió correctamente gradientes y escenas
Respuestas en español: correctas y fluidas
✗ No funciona
TTS / voz generada: no disponible en 4-bit
El componente «talker» (generador de voz) no carga correctamente con cuantización BitsAndBytes. Para voz se necesita precisión completa o un modelo TTS separado.

⚠ Atención: aunque el modelo ocupa solo 6,91 GB en uso, la cuantización BitsAndBytes NF4 necesita cargar el modelo completo en bf16 (~18 GB) antes de comprimirlo. Durante ese proceso el pico de VRAM alcanza los 20,41 GB. Se necesita una GPU con al menos 22–24 GB para la primera carga. Las cargas posteriores desde caché son mucho más rápidas y el pico no se repite.

6,91 GB de VRAM para texto e imagen multimodal a 46,5 tok/s —más rápido que el Qwen3.5-9B en 4-bit— es un resultado muy sólido. La limitación del TTS en modo cuantizado es conocida y tiene solución práctica: Qwen3-TTS 1.7B ocupa apenas 2 GB adicionales y funciona sin restricciones. Los dos modelos juntos suman menos de 9 GB.

→ Análisis completo con pruebas de audio y voz en castellano: próximamente en ScreenAI


¿Qué significa esto en la práctica?

Poner en perspectiva los números es útil. A principios de 2024, tener un modelo de lenguaje de calidad conversacional corriendo localmente a velocidad razonable requería un servidor dedicado o hardware de varios miles de euros. A principios de 2026, ese mismo perfil de rendimiento cabe en una tarjeta gráfica de gaming de gama alta con 8 GB de VRAM libres.

Nuestra recomendación

Para quienes trabajan en proyectos creativos, desarrollo de software o producción de contenidos y disponen de una GPU con al menos 12 GB de VRAM: Qwen3.5-9B en cuantización 4-bit NF4 es hoy el equilibrio más sólido disponible en código abierto. Calidad comparable a modelos de API de pago, 262.000 tokens de contexto —suficiente para ingerir guiones, documentos o conversaciones largas de una vez— multimodal nativo, y un consumo de memoria que permite convivir con otros procesos de IA en la misma tarjeta.

Fast-dLLM v2 tiene su espacio propio: si la velocidad de respuesta es la prioridad absoluta y el contexto requerido es corto —chatbots, generación de fragmentos, autocompletar— el modelo de 1.5B a 145 tok/s es una opción difícil de superar con tan solo 3 GB de VRAM.


Stack optimizado · RTX 3090 Ti (24 GB)
Función Modelo VRAM
Texto / Chat / Agente Qwen3.5-9B 4-bit NF4 7,65 GB
Generación de imágenes FLUX / SANA (GPU) ~12 GB
TTS / Síntesis de voz Qwen3-TTS 1.7B ~2 GB
Total aproximado ~21,65 GB / 24 GB

Los modelos de texto y TTS se cargan/descargan bajo demanda. El generador de imágenes ocupa memoria de forma estable cuando está activo.