Durante años, la narrativa fue sencilla: los modelos de lenguaje potentes vivían en la nube y los modelos locales eran juguetes para entusiastas. En febrero y marzo de 2026, esa narrativa se ha roto. Con el lanzamiento de Qwen3.5 por parte de Alibaba Cloud y la publicación de Fast-dLLM v2 por parte del laboratorio NVLabs de NVIDIA, disponemos de modelos open source que compiten de frente con las APIs de pago, ejecutándose en hardware que muchos creadores y desarrolladores ya tienen en casa.
Lo que sigue son los resultados de pruebas reales realizadas por el equipo de investigación de Screen Art sobre una RTX 3090 Ti con 24 GB de VRAM. Todos los benchmarks que aparecen en este artículo son mediciones propias, no datos de laboratorio ni cifras tomadas de terceros.
¿Qué significa tok/s?
Los modelos de lenguaje no generan palabras, sino tokens: fragmentos de texto que pueden ser una palabra completa, una sílaba, un signo de puntuación o incluso un espacio. El término tokens por segundo (tok/s) mide cuántos de estos fragmentos genera el modelo en cada segundo de inferencia.
Para hacerse una idea práctica: una respuesta típica de una IA en chat tiene entre 200 y 600 tokens. Con 30 tok/s se obtiene esa respuesta en 7–20 segundos. Con 145 tok/s, la respuesta aparece en 1–4 segundos, prácticamente en tiempo real.
Fast-dLLM v2: el enfoque de NVIDIA
Dos tamaños disponibles: 1.5B y 7B parámetros. Licencia Apache 2.0. Base: Qwen2.5-Instruct adaptado mediante fine-tuning de difusión con solo ~1.000 millones de tokens.
Los grandes modelos de lenguaje tienen un problema estructural: generan texto de izquierda a derecha, un token cada vez. Este diseño autorregresivo es muy preciso pero limita la velocidad máxima. Fast-dLLM v2 propone un enfoque distinto: en lugar de generar cada token de forma secuencial, agrupa los tokens en bloques y los genera en paralelo, aprovechando la GPU de manera mucho más eficiente.
El resultado es un modelo que puede ser hasta 2,5 veces más rápido que su base Qwen2.5-7B sin pérdida apreciable de calidad. En la práctica, sobre una RTX 3090 Ti, los números son los siguientes:
Fast-dLLM v2 1.5B
El modelo más ligero de la familia cabe en tarjetas gráficas de gama media sin problema. Su velocidad pico de 145 tok/s a 512 tokens de salida lo sitúa entre los modelos locales más rápidos que se pueden ejecutar hoy. La calidad de las respuestas es funcional —correcta en tareas sencillas, con cierta limitación en razonamiento complejo— pero la velocidad es genuinamente impresionante para su tamaño.
Fast-dLLM v2 7B
El modelo de 7 mil millones de parámetros requiere una tarjeta con al menos 16 GB de VRAM —el límite habitual de una RTX 4080 o superior. Su punto óptimo de velocidad está en salidas de 512 tokens, donde alcanza 65 tok/s. Es notable: genera respuestas de calidad comparable a modelos de chat de referencia, a una velocidad que convierte la espera en algo transparente para el usuario. La limitación principal sigue siendo el contexto: 32.000 tokens es suficiente para la mayoría de tareas, pero se queda corto si se trabaja con documentos largos.
Un detalle técnico relevante: la velocidad de Fast-dLLM no es lineal. Crece entre los 128 y los 512 tokens de salida, y luego desciende en secuencias muy largas. Esto es inherente al mecanismo de difusión en bloques y hay que tenerlo en cuenta en casos de uso donde el modelo debe generar textos muy extensos.
Qwen3.5-9B: el salto cualitativo de Alibaba
Modelo multimodal nativo (texto + imagen + vídeo). Arquitectura híbrida: Gated Delta Networks + sparse MoE. Licencia Apache 2.0.
Qwen3.5 no es una actualización incremental. Es una reescritura de arquitectura. Donde los modelos anteriores usaban adaptadores de visión pegados a un modelo de texto, Qwen3.5 fue entrenado desde cero con texto, imágenes y vídeo al mismo tiempo —lo que se llama early fusion. El resultado es un modelo que entiende las imágenes no como algo añadido, sino como un idioma más.
Para las pruebas de rendimiento nos hemos centrado en el modelo de 9.000 millones de parámetros, el tamaño más manejable de la familia para hardware de consumo. Lo probamos en tres configuraciones distintas:
Configuración 1: bf16 con flash-linear-attention
La precisión completa en 16 bits ofrece la calidad máxima del modelo. A 40 tok/s la experiencia es muy cómoda. Lo más llamativo es que la velocidad es prácticamente constante independientemente de si se generan 128 o 1.024 tokens —algo que diferencia a los modelos autorregresivos clásicos de los basados en arquitecturas lineales como Gated Delta Networks. La biblioteca flash-linear-attention mejora el rendimiento en un 18% respecto a la inferencia estándar.
Configuración 2: cuantización 4-bit NF4
La cuantización a 4 bits reduce el modelo a menos de la mitad del espacio en memoria con una pérdida de calidad prácticamente imperceptible en tests reales de conversación, redacción y razonamiento en español. Con solo 7,65 GB de VRAM puede coexistir con otros procesos de IA corriendo en paralelo en la misma tarjeta gráfica.
Comparativa directa
| Modelo | Lanzamiento | VRAM | Velocidad @512t | Contexto | Multimodal | Calidad |
|---|---|---|---|---|---|---|
| Fast-dLLM v2 1.5B | Oct 2025 | 3,1 GB | 145 tok/s | 32k | No | Básica |
| Fast-dLLM v2 7B | Oct 2025 | 15,2 GB | 65 tok/s | 32k | No | Buena |
| Qwen3.5-9B bf16+FLA | 2 Mar 2026 | 17,9 GB | 40,7 tok/s | 262k | Sí | Excelente |
| Qwen3.5-9B 4-bit NF4 | 2 Mar 2026 | 7,65 GB | 32 tok/s | 262k | Sí | Excelente |
| Qwen2.5-Omni 7B 4-bit | Mar 2025 | 6,91 GB † | 46,5 tok/s | 32.768 | Texto+Imagen ✓ · Voz ✗ | Excelente |
Qwen2.5-Omni: texto, imagen y voz en un solo modelo
Existe una rama paralela de la familia Qwen orientada a la interacción multimodal completa: no solo texto e imagen, sino también audio en tiempo real y voz generada. Qwen2.5-Omni fue lanzado el 27 de marzo de 2025 y está disponible en versiones de 3B y 7B parámetros.
Lo probamos en cuantización 4-bit NF4 con BitsAndBytes sobre la misma RTX 3090 Ti. Los resultados son en su mayoría muy positivos, con una excepción importante:
VRAM pico (carga inicial): ~21 GB ⚠
Texto español: 46,5 tok/s
Descripción de imagen: 27,6 tok/s
Calidad visual: describió correctamente gradientes y escenas
Respuestas en español: correctas y fluidas
El componente «talker» (generador de voz) no carga correctamente con cuantización BitsAndBytes. Para voz se necesita precisión completa o un modelo TTS separado.
⚠ Atención: aunque el modelo ocupa solo 6,91 GB en uso, la cuantización BitsAndBytes NF4 necesita cargar el modelo completo en bf16 (~18 GB) antes de comprimirlo. Durante ese proceso el pico de VRAM alcanza los 20,41 GB. Se necesita una GPU con al menos 22–24 GB para la primera carga. Las cargas posteriores desde caché son mucho más rápidas y el pico no se repite.
6,91 GB de VRAM para texto e imagen multimodal a 46,5 tok/s —más rápido que el Qwen3.5-9B en 4-bit— es un resultado muy sólido. La limitación del TTS en modo cuantizado es conocida y tiene solución práctica: Qwen3-TTS 1.7B ocupa apenas 2 GB adicionales y funciona sin restricciones. Los dos modelos juntos suman menos de 9 GB.
→ Análisis completo con pruebas de audio y voz en castellano: próximamente en ScreenAI
¿Qué significa esto en la práctica?
Poner en perspectiva los números es útil. A principios de 2024, tener un modelo de lenguaje de calidad conversacional corriendo localmente a velocidad razonable requería un servidor dedicado o hardware de varios miles de euros. A principios de 2026, ese mismo perfil de rendimiento cabe en una tarjeta gráfica de gaming de gama alta con 8 GB de VRAM libres.
Nuestra recomendación
Para quienes trabajan en proyectos creativos, desarrollo de software o producción de contenidos y disponen de una GPU con al menos 12 GB de VRAM: Qwen3.5-9B en cuantización 4-bit NF4 es hoy el equilibrio más sólido disponible en código abierto. Calidad comparable a modelos de API de pago, 262.000 tokens de contexto —suficiente para ingerir guiones, documentos o conversaciones largas de una vez— multimodal nativo, y un consumo de memoria que permite convivir con otros procesos de IA en la misma tarjeta.
Fast-dLLM v2 tiene su espacio propio: si la velocidad de respuesta es la prioridad absoluta y el contexto requerido es corto —chatbots, generación de fragmentos, autocompletar— el modelo de 1.5B a 145 tok/s es una opción difícil de superar con tan solo 3 GB de VRAM.
| Función | Modelo | VRAM |
|---|---|---|
| Texto / Chat / Agente | Qwen3.5-9B 4-bit NF4 | 7,65 GB |
| Generación de imágenes | FLUX / SANA (GPU) | ~12 GB |
| TTS / Síntesis de voz | Qwen3-TTS 1.7B | ~2 GB |
| Total aproximado | ~21,65 GB / 24 GB | |
Los modelos de texto y TTS se cargan/descargan bajo demanda. El generador de imágenes ocupa memoria de forma estable cuando está activo.