Hay avances técnicos que mejoran los modelos existentes. Y hay avances que cambian la arquitectura de base sobre la que se construyen todos los modelos. Fast-dLLM pertenece a la segunda categoría.
El mismo laboratorio que nos dio SANA —NVIDIA Research en colaboración con el MIT Han Lab— acaba de publicar algo que tiene implicaciones mucho más amplias que la velocidad de una imagen: una forma de hacer que los modelos de lenguaje generen texto en paralelo en lugar de palabra por palabra, adaptando modelos ya entrenados en lugar de empezar desde cero.
Para entender por qué esto importa, hay que entender primero cuál es el problema.
El cuello de botella que nadie menciona en los benchmarks
Cuando le pides a ChatGPT, Claude o Gemini que genere un párrafo, el modelo no "piensa" el párrafo completo y luego lo escribe. Lo genera token a token, de izquierda a derecha, donde cada nueva palabra depende de todas las anteriores. Es como escribir a máquina: no puedes poner la segunda letra hasta que has puesto la primera.
Esto tiene una consecuencia directa en velocidad: el tiempo de generación es lineal respecto a la longitud del texto. Un texto de 500 palabras tarda aproximadamente el doble que uno de 250. En hardware de consumidor, esto se traduce en segundos —o minutos— de espera.
Generan una palabra cada vez, en orden estricto.
El tiempo escala linealmente con la longitud del texto.
Cada token espera al anterior para generarse.
ChatGPT, Claude, Gemini, Llama... todos funcionan así.
Generan bloques de tokens en paralelo simultáneamente.
El tiempo escala mucho más lentamente con la longitud.
Los tokens "emergen" del ruido como una imagen en SANA.
Hasta 2.5x más rápido que los modelos AR equivalentes.
La idea: aplicar difusión al texto como SANA la aplicó a la imagen
Los modelos de difusión de imagen —Stable Diffusion, FLUX, SANA— funcionan partiendo de ruido aleatorio y refinándolo iterativamente hasta obtener una imagen coherente. Todos los píxeles se procesan en paralelo en cada paso, no de izquierda a derecha.
La pregunta obvia es: ¿por qué no hacer lo mismo con texto? La respuesta es que el texto tiene dependencias semánticas que la imagen no tiene de la misma forma. La palabra "no" cambia completamente el significado de lo que viene antes y después. Saltarte ese orden estricto puede producir incoherencias graves.
Los primeros intentos de LLMs de difusión —modelos como LLaDA y Dream— demostraron que era posible, pero con dos problemas: necesitaban entrenarse desde cero con cientos de miles de millones de tokens, y la calidad se degradaba al generar múltiples tokens en paralelo.
Imagina que tienes que completar un crucigrama. Un LLM autoregresivo empieza por la primera casilla y va completando en orden, una por una. Un LLM de difusión llena todas las casillas con letras aleatorias y luego va corrigiendo varias a la vez hasta que el puzzle tiene sentido.
El problema histórico: al corregir varias casillas a la vez, las correcciones podían contradecirse entre sí —una casilla asumía que la de al lado era una "A" cuando en realidad la estaban cambiando a "E" al mismo tiempo.
La solución de Fast-dLLM: solo corriges en paralelo las casillas de las que estás suficientemente seguro. Las dudosas las dejas para el siguiente paso.
Qué hace Fast-dLLM diferente a los intentos anteriores
Fast-dLLM resuelve los dos problemas históricos con dos innovaciones técnicas que, una vez explicadas, son elegantemente simples.
1. KV Cache aproximado para modelos bidireccionales
Los LLMs autoregresivos tienen una ventaja técnica enorme llamada KV Cache: reutilizan cálculos de atención previos para acelerar cada nuevo token. Los modelos de difusión de texto no podían hacer esto porque su atención es bidireccional —cada token atiende a todos los demás, no solo a los anteriores.
Fast-dLLM introduce un mecanismo de caché aproximado por bloques: en lugar de recomputar toda la atención en cada paso, reutiliza los cálculos del bloque anterior, que en la práctica son muy similares. La degradación de calidad por esta aproximación es estadísticamente negligible.
2. Decodificación paralela con umbral de confianza
El segundo problema —la incoherencia al generar múltiples tokens en paralelo— se resuelve con una estrategia intuitiva: solo genera en paralelo los tokens de los que el modelo está muy seguro. Los tokens inciertos esperan al siguiente paso.
Es como el crucigrama: llenas de golpe todas las casillas en las que tienes plena seguridad, y dejas para después las que todavía dudas.
Fast-dLLM no reemplaza el modelo que ya tienes. Lo convierte. Toma un LLM existente y le añade la capacidad de generar en paralelo sin reentrenarlo desde cero.
El resultado que cambia la ecuación
Esos números merecen contexto. El 27.6x se consigue en generaciones largas con prefilling extenso —el caso más favorable. El 2.5x es el valor representativo para uso habitual. Pero incluso 2.5x es significativo: en hardware de consumidor, la diferencia entre generar 200 palabras en 8 segundos o en 3 segundos cambia completamente la experiencia.
Lo más relevante para despliegue práctico es el dato de los tokens de fine-tuning. Modelos como Dream, el principal competidor en el espacio de LLMs de difusión, necesitaron 580.000 millones de tokens para entrenarse. Fast-dLLM v2 adapta un modelo existente como Qwen2.5 con aproximadamente 1.000 millones de tokens. Eso no es solo una mejora de eficiencia —es la diferencia entre un proyecto de años y un fine-tuning accesible.
| Benchmark | Modelo base (AR) | Fast-dLLM v2 | Speedup | Pérdida calidad |
|---|---|---|---|---|
| GSM8K (matemáticas) | 76.0% | 76.0% | 27.6× | 0% |
| MATH | ~40% | ~39% | 6.5× | <1% |
| HumanEval (código) | 54.3% | 54.3% | 3.2× | 0% |
| MBPP (código) | — | — | 7.8× | <2% |
| Media general (7B) | ~58% | 60.3% | 2.5× | 0% (mejora) |
El último dato de la tabla merece atención: Fast-dLLM v2 en el grupo de 7B no solo no pierde calidad respecto al modelo base —en el promedio general lo supera ligeramente. Esto se debe a que el proceso de fine-tuning con datos curados también mejora algunas capacidades del modelo original.
Fast-dLLM v2 vs v1: qué cambió
La versión 1 de Fast-dLLM era un método de aceleración sin reentrenamiento —tomaba modelos de difusión existentes como LLaDA y Dream y les añadía KV Cache y decodificación paralela. Funcionaba, pero dependía de que alguien ya hubiera entrenado el modelo de difusión desde cero.
La versión 2 cambia el punto de partida: en lugar de acelerar modelos de difusión preexistentes, convierte modelos autoregresivos en modelos de difusión durante el fine-tuning. Esto abre el acceso a todo el ecosistema de LLMs ya entrenados —Qwen2.5, LLaMA, Mistral— sin necesitar el coste de entrenamiento masivo.
Fast-dLLM v2 está disponible en HuggingFace en dos tamaños: Efficient-Large-Model/Fast_dLLM_v2_1.5B (basado en Qwen2.5-1.5B) y Fast_dLLM_v2_7B (basado en Qwen2.5-7B-Instruct). Licencia Apache 2.0. Código en GitHub: NVlabs/Fast-dLLM. Aceptado como Oral en ICLR-2026.
Por qué esto importa más allá de la velocidad
La aceleración de inferencia es la consecuencia más obvia, pero no la más interesante. Lo que Fast-dLLM demuestra es que la generación autoregresiva estricta no es un requisito fundamental de los LLMs —es una convención heredada que tiene alternativas viables.
Hay implicaciones que van más lejos. Un modelo que puede revisar y refinar bloques de tokens en paralelo tiene, en teoría, una capacidad de autocorrección diferente a un modelo que va en una sola dirección. También abre la puerta a estrategias de generación más flexibles: generar un borrador completo y refinarlo, en lugar de comprometerse irrevocablemente con cada palabra en orden.
El equipo de NVIDIA y MIT —los mismos que están detrás de SANA, SANA Video y NVILA— están construyendo metódicamente un ecosistema donde la eficiencia no es un compromiso sino el principio de diseño central. Fast-dLLM es la pieza de texto de ese ecosistema.
Conclusión
Fast-dLLM v2 no es una mejora incremental sobre los LLMs actuales —es una demostración de que la arquitectura autoregresiva tiene alternativas maduras y desplegables hoy mismo.
Para creadores y desarrolladores que trabajan con generación de texto a escala, la combinación de 2.5x de speedup, cero degradación de calidad y fine-tuning accesible lo convierte en uno de los lanzamientos más relevantes del primer trimestre de 2026.
Que venga del mismo equipo que SANA no es casualidad. Es el patrón: eficiencia extrema, open source, hardware de consumidor. Lo hicieron con imagen. Lo están haciendo con texto. Lo están haciendo con vídeo. La pregunta es cuánto tarda el resto del ecosistema en adoptar estos principios.