Benchmark propioZ-Image TurboControlNet

Z-Image Turbo supera a
Flux Schnell en velocidad,
VRAM y calidad fotorrealista

El equipo de investigación de Screen Art ha sometido a prueba Z-Image Turbo —el modelo de generación de imágenes lanzado por Alibaba en noviembre de 2025— en todas sus variantes sobre una RTX 3090 Ti y una RTX 3060. Los resultados redefinen el estándar de generación local en hardware consumer.

Hardware principalRTX 3090 Ti · 24 GB VRAM · 94 GB RAM
Hardware secundarioRTX 3060 · 12 GB VRAM
Entorno de pruebasWanGP · diffusers nativo · ComfyUI

Si seguías el mundo de la generación de imágenes con IA en 2025, sabías que Flux Schnell era el estándar imbatible para hardware consumer: rápido, ligero, y con una calidad que ningún modelo open source había igualado. En noviembre de 2025, Alibaba cambió eso.

Z-Image Turbo, desarrollado por el Tongyi Lab, es una arquitectura distinta —S3-DiT, con procesamiento unificado de tokens de texto e imagen— destilada para generar en 8 pasos con calidad fotorrealista que supera a Flux en retratos y texturas de piel. Lo que sigue son los resultados de las pruebas, realizadas a través de WanGP y del pipeline nativo de diffusers.

Proyecto

WanGP — La interfaz que hace posibles estos benchmarks

WanGP (github.com/deepbeepmeep/Wan2GP) es un proyecto open source creado por DeepBeepMeep en febrero de 2025, inicialmente como una versión optimizada de Wan 2.1 de Alibaba para GPUs con poca VRAM. Hoy, en su versión 10.x, es una interfaz Gradio completa que soporta más de 20 modelos distintos: Wan 2.1/2.2, Z-Image, Qwen Image, Flux, Hunyuan Video, LTX Video, y sistemas de audio/TTS como Qwen3-TTS y Ace Step.

Su característica más relevante para estos benchmarks es el módulo mmgp (Memory Management for GPU Poor), un sistema de gestión de memoria que permite ejecutar modelos que superan la VRAM disponible shuttleando capas entre RAM y GPU de forma dinámica. mmgp define varios perfiles de ejecución:

Profile 1
Todo en VRAM
Modelo completo cargado en GPU. Máxima velocidad, requiere VRAM suficiente.
Profile 2/3
VRAM parcial
Capas repartidas entre VRAM y RAM. Equilibrio velocidad/VRAM.
Profile 4
RAM shuttle ★
Modelo pinned en RAM, se envían bloques de ~345–400 MB a VRAM bajo demanda. VRAM pico mínima (~3 GB), más lento por el ancho de banda RAM↔GPU.
Profile 5
CPU offload
Para GPUs con muy poca VRAM. El más lento, el más compatible.

El soporte de Z-Image en WanGP llegó en diciembre de 2025, y el ControlNet Union 2.1 fue integrado poco después. Todos los benchmarks de esta sección de perfiles usan mmgp a través de WanGP. Los tests de generación INT4 usan el pipeline nativo de diffusers con Nunchaku.

🔬

Grupo de investigación

Pruebas realizadas por el equipo de Screen Art sobre hardware propio. Los resultados pueden variar según configuración de sistema, versión de drivers y carga concurrente de GPU.

01

Los modelos: quién los hace, cuándo salieron y para qué sirve cada variante

Z-Image Turbo no es un único checkpoint. Es una familia de variantes desarrolladas por distintos equipos del ecosistema Alibaba y la comunidad académica, con propósitos y requisitos de hardware muy diferentes.

Empresa base
Tongyi-MAI · Alibaba Group
Cuantización
MIT HAN Lab · Nunchaku
Lanzamiento base
26 nov 2025
INT4 disponible
Dic 2025 – Ene 2026
Licencia
Apache 2.0
Z-Image Turbo · Nunchaku INT4 r256🏆 Ganador txt2img
Velocidad8.5s/img
VRAM pico5.5GB
Disco4.5GB
Steps8
PipelineNunchaku
nativo

Cuantización SVDQuant a 4 bits desarrollada por el MIT HAN Lab con su engine Nunchaku. Los pesos se almacenan en formato qweight / wscales / wzeros —incompatible con safetensors estándar, requiere el runtime Nunchaku. Carga directamente en VRAM sin shuttle RAM↔GPU. La calidad visual es equivalente al bf16 completo; Nunchaku comprime sin pérdida perceptible en retratos. El más rápido de la familia por amplio margen. Disponible como checkpoint en HuggingFace e integrado en WanGP.

Empresa
InclusionAI (ecosistema Alibaba)
Paper arXiv
Dic 2025 (arXiv:2512.05150)
Checkpoint exp.
Ene–Feb 2026
Aceptado en
ICLR 2026
Licencia
Apache 2.0
TwinFlow Z-Image Turbo · bf16Preview ultra-rápido
Velocidad10.3s/img
VRAM pico3.0GB
Disco12.3GB
Steps4
Profilemmgp 4
(WanGP)

Fine-tune del Z-Image Turbo bf16 entrenado con el framework TwinFlow de InclusionAI. TwinFlow extiende el intervalo de tiempo a t∈[−1,1] para crear una trayectoria "gemela" adversarial interna, logrando convergencia en 1–4 pasos sin discriminador externo. Aceptado en ICLR 2026. Con mmgp profile 4 (WanGP), el modelo de 12.3 GB vive en RAM y se shuttlea a VRAM en bloques —pico de solo 3 GB en GPU. Piel con aspecto más suavizado en close-ups. El checkpoint Z-Image es una versión experimental; la versión completa está en desarrollo.

Empresa
Tongyi-MAI · Alibaba Group
Lanzamiento
26 nov 2025
Arquitectura
S3-DiT · 6B params
Distilación
Decoupled-DMD · 8 steps
Licencia
Apache 2.0
Z-Image Turbo · bf16Referencia calidad máxima
Velocidad18.8s/img
VRAM pico3.0GB
Disco12.3GB
Steps8
Profilemmgp 4
(WanGP)

Transformer en precisión BFloat16 completa. Primera versión pública de Z-Image Turbo, lanzada el 26 de noviembre de 2025 en HuggingFace con licencia Apache 2.0. Alcanzó 500.000 descargas en su primer día y lideró los trending de HuggingFace. En los benchmarks de Artificial Analysis llegó al puesto #1 entre modelos open source (#8 en el ranking global). Con mmgp profile 4 (WanGP) usa solo 3 GB de VRAM pico, con el modelo pinned en RAM.

Empresa
Tongyi-MAI · Alibaba Group
Lanzamiento
Dic 2025
Tipo
ControlNet Union 2.1
Modos
Canny · Depth · Pose · MLSD · Scribble
Licencia
Apache 2.0
Z-Image Turbo · ControlNet Union 2.1Boceto → imagen
Ckpt bf166.7 GB
Ckpt INT83.5 GB
Tiempo prod.~19s/img
VRAM prod.19.7GB
IntegraciónWanGP
nativo

Un único checkpoint soporta todos los tipos de control: Canny, HED, Depth, Pose, MLSD y Scribble. Disponible en bf16 (6.7 GB) e INT8 cuantizado (3.5 GB). Integrado nativamente en WanGP con detección automática del tipo de control y descarga automática del checkpoint. Los benchmarks completos de todas las configuraciones de profile mmgp están en la sección 03.

Empresa
Black Forest Labs
Lanzamiento
Agosto 2024
Arquitectura
Flux · 12B params
Steps
4
Licencia
Apache 2.0
Flux Schnell · NF4 (referencia)Estándar 2024–2025
Velocidad12.6s/img
VRAM pico10GB
Disco6.3GB
Steps4
Carga inicial40s

El estándar de referencia para generación rápida en consumer hardware durante 2024–2025, desarrollado por Black Forest Labs (creadores de Stable Diffusion). Transformer cuantizado NF4 en VRAM. Estilo cinematográfico y artístico, claramente distinto al fotorrealismo documental de Z-Image. Se incluye como referencia —no como competidor directo en calidad fotorrealista.

02

Texto a imagen: benchmarks completos y comparativa con Flux

Todos los tests a 1024×1024 px con los mismos prompts y seeds. La comparación que importa: INT4 vs INT4.

Z-Image INT4 · Nunchaku
 
8.5s 🏆
TwinFlow bf16 · 4 steps
 
10.3s
Flux Schnell · NF4
 
12.6s
Z-Image Turbo · bf16
 
18.8s

La comparación justa: INT4 vs INT4

Las primeras pruebas de Z-Image usaban bf16 con mmgp profile 4 en WanGP —el modelo de 12.3 GB shuttleando bloques desde RAM. Flux Schnell, en cambio, tiene su transformer NF4 residente en VRAM (6.3 GB). Era como comparar dos coches donde uno lleva el freno de mano puesto.

La comparación justa es cuantizado vs cuantizado: Z-Image Nunchaku INT4 (4.5 GB en VRAM, pipeline nativo) frente a Flux Schnell NF4 (6.3 GB en VRAM). Resultado: Z-Image gana en velocidad, ocupa menos VRAM y menos disco.

Modelo Tiempo/img VRAM pico RAM CPU Disco Carga inicial
Z-Image Turbo · INT4 Nunchaku 8.5s 5.5 GB 9 GB 4.5 GB 16s
TwinFlow bf16 · 4 steps (mmgp 4) 10.3s 3.0 GB 20 GB 12.3 GB 8s
Flux Schnell · NF4 12.6s 10 GB 20 GB 6.3 GB 40s
Z-Image Turbo · bf16 (mmgp 4) 18.8s 3.0 GB 20 GB 12.3 GB 8s

RTX 3090 Ti · 1024×1024 px · mismos prompts y seeds. Los modelos bf16 usan mmgp profile 4 vía WanGP (modelo pinned en RAM, bloques de ~345 MB en VRAM). INT4 usa pipeline nativo diffusers + Nunchaku.

Calidad visual: estilos distintos, no un ganador universal

Aspecto Z-Image Turbo / INT4 Flux Schnell NF4
Textura de piel · poros Superior — imperfecciones naturales, pecas Piel suave, retocada
Close-ups · caras Fotorrealista — arrugas, microdetalle Expresiones intensificadas, CGI
Seguimiento del prompt Falla ocasionalmente en grupos Más fiable
Iluminación Natural, editorial Cinematográfica, saturada
Estilo general Fotografía documental Arte digital / Midjourney
⚠️

El pipeline importa tanto como el modelo

El mismo checkpoint puede dar resultados muy distintos según el pipeline de inferencia. Un error anatómico recurrente (una bailarina con tres piernas generada en WanGP) desapareció completamente al cambiar al pipeline diffusers nativo —sin tocar el checkpoint ni el prompt. Siempre que sea posible, los benchmarks finales de producción usan el pipeline nativo.

RTX 3060 (12 GB): ¿viable?

Z-Image Turbo INT4 funciona en la RTX 3060 con un tiempo de generación de aproximadamente 109 segundos por imagen. Aceptable para colas asíncronas, inviable para tiempo real. El ControlNet requiere ~13 GB de VRAM en profile 1 —por encima del límite de la 3060.

03

Boceto a imagen: ControlNet Union 2.1 — todos los perfiles mmgp

El ControlNet Union 2.1 de Z-Image (lanzado en diciembre 2025) soporta todos los tipos de control con un único checkpoint. WanGP lo integra nativamente con descarga automática y detección del tipo de imagen de control.

Configuración Profile mmgp Tiempo/img VRAM pico RAM pinned Veredicto
bf16 + ControlNet bf16 1 · todo VRAM ~19s 19.7 GB 18 GB ✓ Producción
INT8 + ControlNet bf16 1 · todo VRAM ~37s 13.6 GB 12 GB Si VRAM limitada
bf16 + ControlNet bf16 4 · RAM shuttle ~44s 2.6 GB 18 GB Lento
INT8 + ControlNet bf16 4 · RAM shuttle ~54s 2.6 GB 12 GB Peor opción

Profile 1 = todo en VRAM. Profile 4 = mmgp shuttle RAM↔GPU en bloques de ~400 MB (vía WanGP). Nota contraintuitiva: INT8 profile 1 (37s) es más rápido que bf16 profile 4 (44s) —la dequantización en GPU es mucho más rápida que el shuttle RAM↔VRAM.

Hallazgo: el color del boceto no afecta al resultado

🎨

Blanco, azul, gris o amarillo — el resultado es idéntico

Probamos líneas blancas, grises, azules y amarillas sobre fondo negro. El ControlNet genera resultados prácticamente idénticos en todos los casos. Lo único que importa es el contraste. El motivo: el boceto pasa por el VAE encoder, que lo comprime a 16 canales latentes donde la información de color desaparece. A ese nivel, azul y blanco son equivalentes.

Invertir el boceto: obligatorio cuando el fondo es claro

Un boceto con líneas negras sobre fondo blanco produce artefactos: las líneas sangran a la imagen generada. La solución es invertir automáticamente.

Original
Negro sobre blanco
Artefactos visibles
✓ Invertido
Blanco sobre negro
Resultado limpio
💡

Detección automática

avg = np.mean(np.array(sketch))
if avg > 128: sketch = ImageOps.invert(sketch.convert("RGB"))

Funciona con papel escaneado, tablet o dibujo digital. WanGP no lo hace automáticamente —hay que implementarlo en el preprocesamiento de la API.

Control scale: el parámetro más importante

0.30
Libre · pierde
la estructura
0.50 ✓
Sweet spot:
fidelidad + realismo
0.65
Máxima fidelidad
estilo ilustrativo
0.80+
Cartoon / artefactos
No recomendado
04

El límite técnico: INT4 + ControlNet solo funciona en ComfyUI

La combinación ideal sería INT4 Nunchaku (8.5s) con ControlNet para boceto→imagen. No es posible fuera de ComfyUI. Cinco intentos de implementación, documentados a continuación.

Nunchaku INT4
Pesos: qweight / wscales / wzeros
Arch: NunchakuZImageTransformer2DModel
Forward: (x, t, cap_feats)
Control layers: no implementado
ControlNet diffusers / WanGP
Pesos: weight formato estándar
Arch: ZImageTransformer2DModel
Forward: (x_list, cap_feats_list, control_context_list)
Control layers: integrados en arquitectura
🔍

Por qué funciona en ComfyUI y no en diffusers o WanGP

ComfyUI evita el problema completamente. En lugar de inyectar el control dentro del transformer, usa un nodo externo (ZImageControlNetPatcher) que intercepta el forward pass via transformer_options en **kwargs. El transformer INT4 no necesita saber nada del ControlNet —el patcher lo gestiona externamente en cada step del loop de denoising.

WanGP inyecta el control directamente en la arquitectura del transformer durante la carga —lo cual es incompatible con el formato SVDQ de Nunchaku. Portar la solución de ComfyUI a WanGP o diffusers requeriría reimplementar el sistema de patching de nodos: semanas de trabajo para ahorrar 10 segundos frente al bf16. ROI negativo.

05

Resolución nativa y límites reales

Resolución nativa
1024×1024
Dominio de entrenamiento. Mejores resultados con resoluciones divisibles por 32.
Píxeles máximos
~4 MP
Por encima de ~2048×2048 sale del dominio de entrenamiento.
Aspect ratios
1:1 → 21:9
Buckets oficiales: 1280×720, 1152×896, 1344×576. Todos divisibles por 16.
4K real
Via upscaler
Generar a 1024–1280px y escalar 2×–4×. El Tile ControlNet incluido sirve para super-resolución guiada.
06

Stack recomendado para producción en 24 GB VRAM

Caso de uso Modelo Tiempo VRAM Notas
Txt2img / Img2img Z-Image Turbo INT4 Nunchaku 8.5s 5.5 GB Permanente en VRAM · pipeline diffusers nativo
Boceto → imagen bf16 + ControlNet bf16 · mmgp profile 1 ~19s 19.7 GB Descargar INT4 previo (~7s swap) · WanGP
Estilo cinematográfico Flux Schnell NF4 12.6s 10 GB Opción alternativa a Z-Image
🔄

Coexistencia de modelos

Z-Image INT4 (5.5 GB) + Flux NF4 (10 GB) = 15.5 GB → ambos caben simultáneamente en 24 GB. El ControlNet bf16 profile 1 (19.7 GB) requiere descargar Flux primero: swap de ~7 segundos desde caché del sistema operativo.

07

Los hallazgos clave: lo que no encontrarás documentado en ningún otro sitio

01

INT4 Nunchaku supera a Flux Schnell en los cuatro parámetros que importan: velocidad (8.5s vs 12.6s), calidad fotorrealista en retratos, VRAM (5.5 vs 10 GB) y espacio en disco (4.5 vs 6.3 GB). La comparación justa requería INT4 vs INT4 —algo que no hacen los benchmarks publicados hasta ahora.

02

El módulo mmgp de WanGP cambia completamente la ecuación de VRAM. Con profile 4, un modelo de 12.3 GB corre con solo 3 GB de VRAM pico pinneando el transformer en RAM. Esto permite coexistir múltiples modelos grandes en 24 GB. El cuello de botella es el ancho de banda RAM↔GPU, no la VRAM.

03

El color del boceto no afecta al resultado del ControlNet. Blanco, gris, azul o amarillo producen imágenes prácticamente idénticas. El VAE encoder comprime toda la información de color antes de llegar al transformer —a nivel latente, los colores son indistinguibles. Solo importa el contraste con el fondo.

04

Invertir el boceto es obligatorio con fondo claro. Las líneas oscuras sobre fondo blanco sangran a la imagen generada a cualquier valor de control_scale. La detección automática por brillo medio resuelve el problema sin intervención del usuario.

05

INT8 profile 1 (37s) es más rápido que bf16 profile 4 (44s), aunque parece contraintuitivo. La dequantización en GPU es órdenes de magnitud más rápida que el shuttle RAM↔VRAM del profile 4 de mmgp. La velocidad y la eficiencia de memoria no siempre van de la mano.

06

INT4 + ControlNet es imposible fuera de ComfyUI por tres incompatibilidades simultáneas: formato de pesos SVDQ vs estándar, arquitectura del transformer sin soporte de control layers, y firma del método forward. WanGP inyecta el control dentro del transformer durante la carga —incompatible con Nunchaku. ComfyUI lo resuelve externamente via ZImageControlNetPatcher.

Z-Image Turbo INT4 Nunchaku es hoy la opción más sólida para generación fotorrealista local en hardware consumer de gama alta. Supera a Flux Schnell en velocidad y calidad para retratos, con menor consumo de VRAM y disco.

La infraestructura clave detrás de estos resultados es WanGP con su módulo mmgp: sin él, ejecutar modelos de 12+ GB en 24 GB de VRAM de forma eficiente no sería posible para la mayoría de casos de uso. Para plataformas de producción, el stack óptimo combina INT4 nativo para generación rápida con bf16 + ControlNet vía WanGP para boceto→imagen, intercambiando modelos según el tipo de solicitud.