Si seguías el mundo de la generación de imágenes con IA, ya sabías que tarde o temprano alguien haría un movimiento que rompiera la ecuación velocidad-calidad-coste. En octubre de 2024, ese movimiento lo hizo NVIDIA —en colaboración con el MIT y la Universidad de Tsinghua— con el lanzamiento de SANA.
No es solo otro modelo de difusión. SANA reescribe las reglas de lo que es posible en hardware de consumidor: un modelo de 600 millones de parámetros que compite con Flux-12B, siendo 20 veces más pequeño y más de 100 veces más rápido. Y desde enero de 2025, su licencia es Apache 2.0.
¿Qué es exactamente SANA?
SANA es un framework de generación de imágenes texto-a-imagen capaz de producir imágenes de hasta 4096×4096 píxeles. Su propuesta de valor se resume en una frase que los propios investigadores usan: velocidad de producción sin sacrificio de calidad.
Lo que distingue a SANA no es un solo avance, sino cuatro decisiones arquitectónicas que se suman:
Deep Compression Autoencoder (DC-AE): compresión 32x frente al estándar de 8x, reduciendo los tokens latentes 16 veces. El responsable directo de la velocidad —y también de sus limitaciones con caras.
Linear DiT: sustituye la atención cuadrática estándar O(N²) por atención lineal O(N). A resoluciones altas, la diferencia es exponencial.
Gemma como encoder de texto: reemplaza al T5 clásico de FLUX y PixArt por un LLM decoder-only moderno, con mejor comprensión de instrucciones complejas en lenguaje natural.
Flow-DPM-Solver: reduce los pasos de inferencia de 28-50 a solo 14-20 sin perder calidad respecto al Euler solver estándar.
El resultado medido: en una RTX 4090, una imagen 1024×1024 en 0,37 segundos. En una GPU de laptop de 16GB, menos de 1 segundo. En comparación, Flux-12B necesita varios minutos en el mismo hardware.
| Métrica | SANA 0.6B | Flux-12B | PixArt-Σ |
|---|---|---|---|
| Parámetros | 590M | 12.000M | 600M |
| Velocidad 1K (RTX 4090) | 0,37s | ~40s | ~2s |
| Resolución máxima nativa | 4096×4096 | 1024×1024 | 2048×2048 |
| VRAM mínima (4bit) | 8GB | 24GB+ | 8GB |
| Licencia | Apache 2.0 | FLUX Non-Commercial | Apache 2.0 |
Lo bueno, lo malo y lo reconocido
La comunidad lleva meses testeando SANA en producción, y el mapa de fortalezas y debilidades está bastante claro a estas alturas. Lo interesante es que NVlabs lo reconoce sin evasivas en el propio model card.
| Caso de uso | Resultado | Notas |
|---|---|---|
| Fondos y paisajes | ✓ Excelente | Uno de sus puntos más fuertes |
| Arquitectura y entornos | ✓ Muy bueno | Composición espacial sólida |
| Arte estilizado / ilustración | ✓ Bueno | Versatilidad de estilos notable |
| Iteración rápida | ✓ Ideal | Velocidad como ventaja real |
| Caras realistas | ✗ Débil | El DC-AE 32x destruye detalle facial (Issue #52) |
| Manos | ✗ Débil | Explícitamente en el model card |
| Texto dentro de imágenes | ✗ No fiable | Limitación conocida del arquitectura |
| Fotorrealismo | ✗ Limitado | No compite con Flux.1-dev bien ajustado |
La causa técnica del problema con caras y manos es la misma que explica su velocidad: el autoencoder DC-AE con compresión 32x, al reconstruir, pierde los detalles de alta frecuencia. Las caras y las manos son precisamente las zonas con mayor densidad de información fina. Alguien en GitHub intentó corregirlo con fine-tuning de 200k imágenes —la mejora fue marginal.
El mismo autoencoder que hace a SANA 100 veces más rápido es el responsable de sus limitaciones con caras. Es una decisión de diseño, no un error.
NVlabs tiene previsto abordar esto en versiones futuras con un nuevo autoencoder de mayor calidad.
La familia completa: cuatro versiones, cuatro propósitos
Una de las confusiones más frecuentes al hablar de SANA es mezclar versiones que tienen propósitos muy distintos. No son actualizaciones lineales —son herramientas complementarias.
| Versión | Fecha | Parámetros | Propósito | Disponible |
|---|---|---|---|---|
| SANA 1.0 | Nov 2024 | 0.6B / 1.6B | Modelo base, calidad estándar | ✓ HuggingFace |
| SANA Sprint | Mar 2025 | 0.6B / 1.6B | 1-4 pasos. Ultra-rápido. ~0.3s en RTX 4090 | ✓ HuggingFace |
| SANA 1.5 | Mar 2025 | 1.6B / 4.8B | Mejor calidad, mayor alineación texto-imagen | ✓ HuggingFace |
| SANA Video | Oct 2025 | 2B | Vídeo hasta 720p, hasta 1 minuto | ✓ HuggingFace |
| LongSANA | Dic 2025 | 2B | Vídeo largo en tiempo real, 27FPS | ✓ HuggingFace |
SANA Sprint: velocidad extrema como principio
Sprint no es una versión "peor" de SANA 1.0 —es el mismo modelo base, destilado mediante técnicas de consistencia continua (sCM) para funcionar en 1 a 4 pasos en lugar de 20. La calidad es prácticamente indistinguible para la mayoría de casos de uso, y la velocidad es 10-20 veces mayor.
SANA-Sprint supera a FLUX-schnell en FID (7.59 vs 7.94) y GenEval (0.74 vs 0.71) en un solo paso de inferencia, siendo 10 veces más rápido. En una RTX 4090, genera en 0.31 segundos.
SANA 1.5: cuando la calidad importa más que la velocidad
SANA 1.5 es la evolución cualitativa del modelo base. Escala de 1.6B a 4.8B parámetros, pero lo hace de forma inteligente: reutiliza los pesos del modelo anterior para reducir el coste de entrenamiento un 60%. La alineación texto-imagen alcanza 0.81 en GenEval —mejorable hasta 0.96 con inference scaling mediante un VLM juez.
Existe además una variante SANA 1.5 de 1.6B parámetros: misma VRAM que el modelo base actual, pero entrenada con las técnicas de 1.5. Para quien ya tiene SANA 1.0 instalado, es una actualización directa sin coste adicional de hardware.
SANA Video: el paso natural hacia el vídeo
Lanzado en octubre de 2025 e integrado en diffusers en noviembre, SANA Video aplica los mismos principios de eficiencia al vídeo: atención lineal para manejar el enorme número de tokens que requiere una secuencia, y un KV cache de memoria constante que elimina el cuello de botella tradicional para vídeos largos.
El resultado: vídeos de hasta 720p y un minuto de duración, con un coste de entrenamiento que representó solo el 1% del de MovieGen de Meta. LongSANA, lanzado en diciembre de 2025, lleva esto más lejos aún con generación en tiempo real a 27FPS.
Cronología completa de lanzamientos
Paper arXiv + demo MIT. Colaboración NVIDIA, MIT y Universidad de Tsinghua.
Pesos públicos en HuggingFace. API en Replicate.
Modelos 2K y 4K. Plugin ComfyUI. Soporte LoRA en diffusers.
Licencia cambia a Apache 2.0. Soporte 4bit cuantización (8GB VRAM). Modelos 4K.
SANA 1.5 (código + pesos, 16 marzo) y SANA Sprint (código + pesos, 22 marzo). Soporte ComfyUI para ambos.
DC-AE-Lite: inferencia más rápida y menor consumo de memoria.
SANA Video liberado con soporte Text-to-Video e Image+Text-to-Video.
SANA Video integrado en diffusers.
LongSANA: generación de vídeo de hasta un minuto a 27FPS en tiempo real.
SANA Video aceptado como Oral en ICLR-2026. Máximo reconocimiento académico.
Integración con Cosmos-RL para post-training SFT/RL con Flow-GRPO.
Cómo integrarlo en un flujo de producción real
La pregunta práctica para quien trabaja con generación de imagen a escala no es "¿es bueno SANA?" sino "¿para qué casos de uso conviene frente a mis modelos actuales?".
La respuesta depende del contenido. Para fondos, escenarios, arte estilizado o thumbnails sin personas, SANA —especialmente Sprint— es difícilmente batible en relación velocidad/coste/calidad. Para retratos y fotorrealismo, modelos como RealVisXL o EpicRealism siguen siendo superiores.
SANA Sprint está disponible vía SanaSprintPipeline en diffusers ≥ 0.32. El model ID es Efficient-Large-Model/Sana_Sprint_1.6B_1024px_diffusers. SANA 1.5 usa la misma SanaPipeline estándar apuntando a SANA1.5_1.6B_1024px_diffusers.
Una arquitectura sensata para una plataforma de generación combine los tres modelos: Sprint para previews y contenido no humano de alta cadencia, SANA base para composiciones más elaboradas, y RealVisXL para retratos. El coste por imagen se diferencia de forma natural, y el usuario recibe orientación clara sobre qué herramienta usar.
SANA es solo la punta del iceberg
Al explorar el repositorio HuggingFace del equipo Efficient-Large-Model de NVIDIA, queda claro que SANA no es un proyecto aislado —es la pieza visible de un ecosistema mucho más amplio que aplica la misma filosofía de eficiencia a todos los pilares de la IA generativa.
NVILA es el vision-language model del mismo laboratorio: cuatro variantes (2B, 8B, 15B) que entienden imágenes y texto a la vez, integradas en HuggingFace Transformers y con miles de descargas en producción. Misma arquitectura eficiente, mismo equipo.
LongVILA-R1 lleva esa visión al razonamiento sobre contextos largos con imágenes —el equivalente multimodal de poder analizar un vídeo completo o un documento extenso con gráficos de una sola pasada.
Y el más significativo de todos para quien trabaja con texto: Fast-dLLM v2. Si SANA aplicó los principios de difusión a la imagen para hacerla 100 veces más rápida, Fast-dLLM hace lo mismo con los modelos de lenguaje. Adapta LLMs autoregresivos existentes —como Qwen2.5— a generación paralela de texto, consiguiendo hasta 2.5x de velocidad sin pérdida de calidad, con un coste de entrenamiento 500 veces menor que sus predecesores. Aceptado como Oral en ICLR-2026, disponible en HuggingFace. Dedicamos un artículo completo a Fast-dLLM por la relevancia que tiene para aplicaciones de texto generativo.
NVIDIA + MIT Han Lab están construyendo metódicamente un stack completo de IA eficiente: imagen (SANA), vídeo (SANA Video), texto (Fast-dLLM), visión+lenguaje (NVILA). Todo open source, todo desplegable en hardware de consumidor, todo con rendimiento que compite con modelos 10-20x más grandes.
Conclusión
SANA es el primer modelo que demuestra que eficiencia y calidad no son objetivos opuestos en generación de imagen. Su arquitectura —DC-AE, Linear DiT, Gemma como encoder— no es una colección de trucos para ahorrar cómputo: es un rediseño sistemático del pipeline.
Sus limitaciones con caras y manos son reales y reconocidas. Pero son limitaciones de alcance, no de calidad intrínseca. Para el 60% de los casos de uso habituales en producción de contenido, SANA Sprint hace en 0,3 segundos lo que Flux hace en 40.
Con la familia completa —1.0, Sprint, 1.5 y Video— ya disponible en HuggingFace bajo licencias abiertas, y con Fast-dLLM y NVILA completando el ecosistema hacia texto y visión, el equipo Efficient-Large-Model de NVIDIA se ha convertido en uno de los laboratorios open source más relevantes de 2025-2026.