Modelos de imagen · Open Source

SANA de NVIDIA: el modelo de imagen más rápido del mundo ya es open source

100 veces más rápido que Flux, desplegable en una GPU de laptop, y completamente gratuito. Todo sobre la arquitectura, versiones y hoja de ruta de la familia SANA de NVIDIA y MIT.

 9 minutos de lectura

Si seguías el mundo de la generación de imágenes con IA, ya sabías que tarde o temprano alguien haría un movimiento que rompiera la ecuación velocidad-calidad-coste. En octubre de 2024, ese movimiento lo hizo NVIDIA —en colaboración con el MIT y la Universidad de Tsinghua— con el lanzamiento de SANA.

No es solo otro modelo de difusión. SANA reescribe las reglas de lo que es posible en hardware de consumidor: un modelo de 600 millones de parámetros que compite con Flux-12B, siendo 20 veces más pequeño y más de 100 veces más rápido. Y desde enero de 2025, su licencia es Apache 2.0.

¿Qué es exactamente SANA?

SANA es un framework de generación de imágenes texto-a-imagen capaz de producir imágenes de hasta 4096×4096 píxeles. Su propuesta de valor se resume en una frase que los propios investigadores usan: velocidad de producción sin sacrificio de calidad.

Lo que distingue a SANA no es un solo avance, sino cuatro decisiones arquitectónicas que se suman:

Arquitectura técnica

Deep Compression Autoencoder (DC-AE): compresión 32x frente al estándar de 8x, reduciendo los tokens latentes 16 veces. El responsable directo de la velocidad —y también de sus limitaciones con caras.

Linear DiT: sustituye la atención cuadrática estándar O(N²) por atención lineal O(N). A resoluciones altas, la diferencia es exponencial.

Gemma como encoder de texto: reemplaza al T5 clásico de FLUX y PixArt por un LLM decoder-only moderno, con mejor comprensión de instrucciones complejas en lenguaje natural.

Flow-DPM-Solver: reduce los pasos de inferencia de 28-50 a solo 14-20 sin perder calidad respecto al Euler solver estándar.

El resultado medido: en una RTX 4090, una imagen 1024×1024 en 0,37 segundos. En una GPU de laptop de 16GB, menos de 1 segundo. En comparación, Flux-12B necesita varios minutos en el mismo hardware.

cifras clave
Métrica SANA 0.6B Flux-12B PixArt-Σ
Parámetros 590M 12.000M 600M
Velocidad 1K (RTX 4090) 0,37s ~40s ~2s
Resolución máxima nativa 4096×4096 1024×1024 2048×2048
VRAM mínima (4bit) 8GB 24GB+ 8GB
Licencia Apache 2.0 FLUX Non-Commercial Apache 2.0

Lo bueno, lo malo y lo reconocido

La comunidad lleva meses testeando SANA en producción, y el mapa de fortalezas y debilidades está bastante claro a estas alturas. Lo interesante es que NVlabs lo reconoce sin evasivas en el propio model card.

Caso de uso Resultado Notas
Fondos y paisajes ✓ Excelente Uno de sus puntos más fuertes
Arquitectura y entornos ✓ Muy bueno Composición espacial sólida
Arte estilizado / ilustración ✓ Bueno Versatilidad de estilos notable
Iteración rápida ✓ Ideal Velocidad como ventaja real
Caras realistas ✗ Débil El DC-AE 32x destruye detalle facial (Issue #52)
Manos ✗ Débil Explícitamente en el model card
Texto dentro de imágenes ✗ No fiable Limitación conocida del arquitectura
Fotorrealismo ✗ Limitado No compite con Flux.1-dev bien ajustado

La causa técnica del problema con caras y manos es la misma que explica su velocidad: el autoencoder DC-AE con compresión 32x, al reconstruir, pierde los detalles de alta frecuencia. Las caras y las manos son precisamente las zonas con mayor densidad de información fina. Alguien en GitHub intentó corregirlo con fine-tuning de 200k imágenes —la mejora fue marginal.

El mismo autoencoder que hace a SANA 100 veces más rápido es el responsable de sus limitaciones con caras. Es una decisión de diseño, no un error.

NVlabs tiene previsto abordar esto en versiones futuras con un nuevo autoencoder de mayor calidad.

La familia completa: cuatro versiones, cuatro propósitos

Una de las confusiones más frecuentes al hablar de SANA es mezclar versiones que tienen propósitos muy distintos. No son actualizaciones lineales —son herramientas complementarias.

Versión Fecha Parámetros Propósito Disponible
SANA 1.0 Nov 2024 0.6B / 1.6B Modelo base, calidad estándar ✓ HuggingFace
SANA Sprint Mar 2025 0.6B / 1.6B 1-4 pasos. Ultra-rápido. ~0.3s en RTX 4090 ✓ HuggingFace
SANA 1.5 Mar 2025 1.6B / 4.8B Mejor calidad, mayor alineación texto-imagen ✓ HuggingFace
SANA Video Oct 2025 2B Vídeo hasta 720p, hasta 1 minuto ✓ HuggingFace
LongSANA Dic 2025 2B Vídeo largo en tiempo real, 27FPS ✓ HuggingFace

SANA Sprint: velocidad extrema como principio

Sprint no es una versión "peor" de SANA 1.0 —es el mismo modelo base, destilado mediante técnicas de consistencia continua (sCM) para funcionar en 1 a 4 pasos en lugar de 20. La calidad es prácticamente indistinguible para la mayoría de casos de uso, y la velocidad es 10-20 veces mayor.

Dato técnico

SANA-Sprint supera a FLUX-schnell en FID (7.59 vs 7.94) y GenEval (0.74 vs 0.71) en un solo paso de inferencia, siendo 10 veces más rápido. En una RTX 4090, genera en 0.31 segundos.

SANA 1.5: cuando la calidad importa más que la velocidad

SANA 1.5 es la evolución cualitativa del modelo base. Escala de 1.6B a 4.8B parámetros, pero lo hace de forma inteligente: reutiliza los pesos del modelo anterior para reducir el coste de entrenamiento un 60%. La alineación texto-imagen alcanza 0.81 en GenEval —mejorable hasta 0.96 con inference scaling mediante un VLM juez.

Existe además una variante SANA 1.5 de 1.6B parámetros: misma VRAM que el modelo base actual, pero entrenada con las técnicas de 1.5. Para quien ya tiene SANA 1.0 instalado, es una actualización directa sin coste adicional de hardware.

SANA Video: el paso natural hacia el vídeo

Lanzado en octubre de 2025 e integrado en diffusers en noviembre, SANA Video aplica los mismos principios de eficiencia al vídeo: atención lineal para manejar el enorme número de tokens que requiere una secuencia, y un KV cache de memoria constante que elimina el cuello de botella tradicional para vídeos largos.

El resultado: vídeos de hasta 720p y un minuto de duración, con un coste de entrenamiento que representó solo el 1% del de MovieGen de Meta. LongSANA, lanzado en diciembre de 2025, lleva esto más lejos aún con generación en tiempo real a 27FPS.

Cronología completa de lanzamientos

Octubre 2024

Paper arXiv + demo MIT. Colaboración NVIDIA, MIT y Universidad de Tsinghua.

Noviembre 2024

Pesos públicos en HuggingFace. API en Replicate.

Diciembre 2024

Modelos 2K y 4K. Plugin ComfyUI. Soporte LoRA en diffusers.

Enero 2025

Licencia cambia a Apache 2.0. Soporte 4bit cuantización (8GB VRAM). Modelos 4K.

Marzo 2025

SANA 1.5 (código + pesos, 16 marzo) y SANA Sprint (código + pesos, 22 marzo). Soporte ComfyUI para ambos.

Agosto 2025

DC-AE-Lite: inferencia más rápida y menor consumo de memoria.

Octubre 2025

SANA Video liberado con soporte Text-to-Video e Image+Text-to-Video.

Noviembre 2025

SANA Video integrado en diffusers.

Diciembre 2025

LongSANA: generación de vídeo de hasta un minuto a 27FPS en tiempo real.

Enero 2026

SANA Video aceptado como Oral en ICLR-2026. Máximo reconocimiento académico.

Marzo 2026

Integración con Cosmos-RL para post-training SFT/RL con Flow-GRPO.

Cómo integrarlo en un flujo de producción real

La pregunta práctica para quien trabaja con generación de imagen a escala no es "¿es bueno SANA?" sino "¿para qué casos de uso conviene frente a mis modelos actuales?".

La respuesta depende del contenido. Para fondos, escenarios, arte estilizado o thumbnails sin personas, SANA —especialmente Sprint— es difícilmente batible en relación velocidad/coste/calidad. Para retratos y fotorrealismo, modelos como RealVisXL o EpicRealism siguen siendo superiores.

Para desarrolladores

SANA Sprint está disponible vía SanaSprintPipeline en diffusers ≥ 0.32. El model ID es Efficient-Large-Model/Sana_Sprint_1.6B_1024px_diffusers. SANA 1.5 usa la misma SanaPipeline estándar apuntando a SANA1.5_1.6B_1024px_diffusers.

Una arquitectura sensata para una plataforma de generación combine los tres modelos: Sprint para previews y contenido no humano de alta cadencia, SANA base para composiciones más elaboradas, y RealVisXL para retratos. El coste por imagen se diferencia de forma natural, y el usuario recibe orientación clara sobre qué herramienta usar.

SANA es solo la punta del iceberg

Al explorar el repositorio HuggingFace del equipo Efficient-Large-Model de NVIDIA, queda claro que SANA no es un proyecto aislado —es la pieza visible de un ecosistema mucho más amplio que aplica la misma filosofía de eficiencia a todos los pilares de la IA generativa.

NVILA es el vision-language model del mismo laboratorio: cuatro variantes (2B, 8B, 15B) que entienden imágenes y texto a la vez, integradas en HuggingFace Transformers y con miles de descargas en producción. Misma arquitectura eficiente, mismo equipo.

LongVILA-R1 lleva esa visión al razonamiento sobre contextos largos con imágenes —el equivalente multimodal de poder analizar un vídeo completo o un documento extenso con gráficos de una sola pasada.

Y el más significativo de todos para quien trabaja con texto: Fast-dLLM v2. Si SANA aplicó los principios de difusión a la imagen para hacerla 100 veces más rápida, Fast-dLLM hace lo mismo con los modelos de lenguaje. Adapta LLMs autoregresivos existentes —como Qwen2.5— a generación paralela de texto, consiguiendo hasta 2.5x de velocidad sin pérdida de calidad, con un coste de entrenamiento 500 veces menor que sus predecesores. Aceptado como Oral en ICLR-2026, disponible en HuggingFace. Dedicamos un artículo completo a Fast-dLLM por la relevancia que tiene para aplicaciones de texto generativo.

El patrón que emerge

NVIDIA + MIT Han Lab están construyendo metódicamente un stack completo de IA eficiente: imagen (SANA), vídeo (SANA Video), texto (Fast-dLLM), visión+lenguaje (NVILA). Todo open source, todo desplegable en hardware de consumidor, todo con rendimiento que compite con modelos 10-20x más grandes.

Conclusión

SANA es el primer modelo que demuestra que eficiencia y calidad no son objetivos opuestos en generación de imagen. Su arquitectura —DC-AE, Linear DiT, Gemma como encoder— no es una colección de trucos para ahorrar cómputo: es un rediseño sistemático del pipeline.

Sus limitaciones con caras y manos son reales y reconocidas. Pero son limitaciones de alcance, no de calidad intrínseca. Para el 60% de los casos de uso habituales en producción de contenido, SANA Sprint hace en 0,3 segundos lo que Flux hace en 40.

Con la familia completa —1.0, Sprint, 1.5 y Video— ya disponible en HuggingFace bajo licencias abiertas, y con Fast-dLLM y NVILA completando el ecosistema hacia texto y visión, el equipo Efficient-Large-Model de NVIDIA se ha convertido en uno de los laboratorios open source más relevantes de 2025-2026.