Benchmark propioZ-Image TurboControlNet

Z-Image Turbo supera a
Flux Schnell en velocidad,
VRAM y calidad fotorrealista

El equipo de investigación de Screen Art ha sometido a prueba Z-Image Turbo —el modelo de generación de imágenes lanzado por Alibaba en noviembre de 2025— en todas sus variantes sobre una RTX 3090 Ti y una RTX 3060. Los resultados redefinen el estándar de generación local en hardware consumer.

Hardware principalRTX 3090 Ti · 24 GB VRAM · 94 GB RAM

Hardware secundarioRTX 3060 · 12 GB VRAM

Entorno de pruebasWanGP · diffusers nativo · ComfyUI

Si seguías el mundo de la generación de imágenes con IA en 2025, sabías que Flux Schnell era el estándar imbatible para hardware consumer: rápido, ligero, y con una calidad que ningún modelo open source había igualado. En noviembre de 2025, Alibaba cambió eso.

Z-Image Turbo, desarrollado por el Tongyi Lab, es una arquitectura distinta —S3-DiT, con procesamiento unificado de tokens de texto e imagen— destilada para generar en 8 pasos con calidad fotorrealista que supera a Flux en retratos y texturas de piel. Lo que sigue son los resultados de las pruebas, realizadas a través de WanGP y del pipeline nativo de diffusers.

Proyecto

WanGP — La interfaz que hace posibles estos benchmarks

WanGP (github.com/deepbeepmeep/Wan2GP) es un proyecto open source creado por DeepBeepMeep en febrero de 2025, inicialmente como una versión optimizada de Wan 2.1 de Alibaba para GPUs con poca VRAM. Hoy, en su versión 10.x, es una interfaz Gradio completa que soporta más de 20 modelos distintos: Wan 2.1/2.2, Z-Image, Qwen Image, Flux, Hunyuan Video, LTX Video, y sistemas de audio/TTS como Qwen3-TTS y Ace Step.

Su característica más relevante para estos benchmarks es el módulo mmgp (Memory Management for GPU Poor), un sistema de gestión de memoria que permite ejecutar modelos que superan la VRAM disponible shuttleando capas entre RAM y GPU de forma dinámica. mmgp define varios perfiles de ejecución:

Profile 1

Todo en VRAM

Modelo completo cargado en GPU. Máxima velocidad, requiere VRAM suficiente.

Profile 2/3

VRAM parcial

Capas repartidas entre VRAM y RAM. Equilibrio velocidad/VRAM.

Profile 4

RAM shuttle ★

Modelo pinned en RAM, se envían bloques de ~345–400 MB a VRAM bajo demanda. VRAM pico mínima (~3 GB), más lento por el ancho de banda RAM↔GPU.

Profile 5

CPU offload

Para GPUs con muy poca VRAM. El más lento, el más compatible.

El soporte de Z-Image en WanGP llegó en diciembre de 2025, y el ControlNet Union 2.1 fue integrado poco después. Todos los benchmarks de esta sección de perfiles usan mmgp a través de WanGP. Los tests de generación INT4 usan el pipeline nativo de diffusers con Nunchaku.

🔬

Grupo de investigación

Pruebas realizadas por el equipo de Screen Art sobre hardware propio. Los resultados pueden variar según configuración de sistema, versión de drivers y carga concurrente de GPU.

Los modelos: quién los hace, cuándo salieron y para qué sirve cada variante

Z-Image Turbo no es un único checkpoint. Es una familia de variantes desarrolladas por distintos equipos del ecosistema Alibaba y la comunidad académica, con propósitos y requisitos de hardware muy diferentes.

Empresa base

Tongyi-MAI · Alibaba Group

Cuantización

MIT HAN Lab · Nunchaku

Lanzamiento base

26 nov 2025

INT4 disponible

Dic 2025 – Ene 2026

Licencia

Apache 2.0

Z-Image Turbo · Nunchaku INT4 r256🏆 Ganador txt2img

Velocidad8.5s/img

VRAM pico5.5GB

Disco4.5GB

Steps8

PipelineNunchaku
nativo

Cuantización SVDQuant a 4 bits desarrollada por el MIT HAN Lab con su engine Nunchaku. Los pesos se almacenan en formato qweight / wscales / wzeros —incompatible con safetensors estándar, requiere el runtime Nunchaku. Carga directamente en VRAM sin shuttle RAM↔GPU. La calidad visual es equivalente al bf16 completo; Nunchaku comprime sin pérdida perceptible en retratos. El más rápido de la familia por amplio margen. Disponible como checkpoint en HuggingFace e integrado en WanGP.

Empresa

InclusionAI (ecosistema Alibaba)

Paper arXiv

Dic 2025 (arXiv:2512.05150)

Checkpoint exp.

Ene–Feb 2026

Aceptado en

ICLR 2026

Licencia

Apache 2.0

TwinFlow Z-Image Turbo · bf16Preview ultra-rápido

Velocidad10.3s/img

VRAM pico3.0GB

Disco12.3GB

Steps4

Profilemmgp 4
(WanGP)

Fine-tune del Z-Image Turbo bf16 entrenado con el framework TwinFlow de InclusionAI. TwinFlow extiende el intervalo de tiempo a t∈[−1,1] para crear una trayectoria "gemela" adversarial interna, logrando convergencia en 1–4 pasos sin discriminador externo. Aceptado en ICLR 2026. Con mmgp profile 4 (WanGP), el modelo de 12.3 GB vive en RAM y se shuttlea a VRAM en bloques —pico de solo 3 GB en GPU. Piel con aspecto más suavizado en close-ups. El checkpoint Z-Image es una versión experimental; la versión completa está en desarrollo.

Empresa

Tongyi-MAI · Alibaba Group

Lanzamiento

26 nov 2025

Arquitectura

S3-DiT · 6B params

Distilación

Decoupled-DMD · 8 steps

Licencia

Apache 2.0

Z-Image Turbo · bf16Referencia calidad máxima

Velocidad18.8s/img

VRAM pico3.0GB

Disco12.3GB

Steps8

Profilemmgp 4
(WanGP)

Transformer en precisión BFloat16 completa. Primera versión pública de Z-Image Turbo, lanzada el 26 de noviembre de 2025 en HuggingFace con licencia Apache 2.0. Alcanzó 500.000 descargas en su primer día y lideró los trending de HuggingFace. En los benchmarks de Artificial Analysis llegó al puesto #1 entre modelos open source (#8 en el ranking global). Con mmgp profile 4 (WanGP) usa solo 3 GB de VRAM pico, con el modelo pinned en RAM.

Empresa

Tongyi-MAI · Alibaba Group

Lanzamiento

Dic 2025

Tipo

ControlNet Union 2.1

Modos

Canny · Depth · Pose · MLSD · Scribble

Licencia

Apache 2.0

Z-Image Turbo · ControlNet Union 2.1Boceto → imagen

Ckpt bf166.7 GB

Ckpt INT83.5 GB

Tiempo prod.~19s/img

VRAM prod.19.7GB

IntegraciónWanGP
nativo

Un único checkpoint soporta todos los tipos de control: Canny, HED, Depth, Pose, MLSD y Scribble. Disponible en bf16 (6.7 GB) e INT8 cuantizado (3.5 GB). Integrado nativamente en WanGP con detección automática del tipo de control y descarga automática del checkpoint. Los benchmarks completos de todas las configuraciones de profile mmgp están en la sección 03.

Empresa

Black Forest Labs

Lanzamiento

Agosto 2024

Arquitectura

Flux · 12B params

Steps

4

Licencia

Apache 2.0

Flux Schnell · NF4 (referencia)Estándar 2024–2025

Velocidad12.6s/img

VRAM pico10GB

Disco6.3GB

Steps4

Carga inicial40s

El estándar de referencia para generación rápida en consumer hardware durante 2024–2025, desarrollado por Black Forest Labs (creadores de Stable Diffusion). Transformer cuantizado NF4 en VRAM. Estilo cinematográfico y artístico, claramente distinto al fotorrealismo documental de Z-Image. Se incluye como referencia —no como competidor directo en calidad fotorrealista.

Texto a imagen: benchmarks completos y comparativa con Flux

Todos los tests a 1024×1024 px con los mismos prompts y seeds. La comparación que importa: INT4 vs INT4.

Z-Image INT4 · Nunchaku

8.5s 🏆

TwinFlow bf16 · 4 steps

10.3s

Flux Schnell · NF4

12.6s

Z-Image Turbo · bf16

18.8s

⚡

La comparación justa: INT4 vs INT4

Las primeras pruebas de Z-Image usaban bf16 con mmgp profile 4 en WanGP —el modelo de 12.3 GB shuttleando bloques desde RAM. Flux Schnell, en cambio, tiene su transformer NF4 residente en VRAM (6.3 GB). Era como comparar dos coches donde uno lleva el freno de mano puesto.

La comparación justa es cuantizado vs cuantizado: Z-Image Nunchaku INT4 (4.5 GB en VRAM, pipeline nativo) frente a Flux Schnell NF4 (6.3 GB en VRAM). Resultado: Z-Image gana en velocidad, ocupa menos VRAM y menos disco.

Modelo	Tiempo/img	VRAM pico	RAM CPU	Disco	Carga inicial
Z-Image Turbo · INT4 Nunchaku	8.5s	5.5 GB	9 GB	4.5 GB	16s
TwinFlow bf16 · 4 steps (mmgp 4)	10.3s	3.0 GB	20 GB	12.3 GB	8s
Flux Schnell · NF4	12.6s	10 GB	20 GB	6.3 GB	40s
Z-Image Turbo · bf16 (mmgp 4)	18.8s	3.0 GB	20 GB	12.3 GB	8s

RTX 3090 Ti · 1024×1024 px · mismos prompts y seeds. Los modelos bf16 usan mmgp profile 4 vía WanGP (modelo pinned en RAM, bloques de ~345 MB en VRAM). INT4 usa pipeline nativo diffusers + Nunchaku.

Calidad visual: estilos distintos, no un ganador universal

Aspecto	Z-Image Turbo / INT4	Flux Schnell NF4
Textura de piel · poros	Superior — imperfecciones naturales, pecas	Piel suave, retocada
Close-ups · caras	Fotorrealista — arrugas, microdetalle	Expresiones intensificadas, CGI
Seguimiento del prompt	Falla ocasionalmente en grupos	Más fiable
Iluminación	Natural, editorial	Cinematográfica, saturada
Estilo general	Fotografía documental	Arte digital / Midjourney

⚠️

El pipeline importa tanto como el modelo

El mismo checkpoint puede dar resultados muy distintos según el pipeline de inferencia. Un error anatómico recurrente (una bailarina con tres piernas generada en WanGP) desapareció completamente al cambiar al pipeline diffusers nativo —sin tocar el checkpoint ni el prompt. Siempre que sea posible, los benchmarks finales de producción usan el pipeline nativo.

RTX 3060 (12 GB): ¿viable?

Z-Image Turbo INT4 funciona en la RTX 3060 con un tiempo de generación de aproximadamente 109 segundos por imagen. Aceptable para colas asíncronas, inviable para tiempo real. El ControlNet requiere ~13 GB de VRAM en profile 1 —por encima del límite de la 3060.

Boceto a imagen: ControlNet Union 2.1 — todos los perfiles mmgp

El ControlNet Union 2.1 de Z-Image (lanzado en diciembre 2025) soporta todos los tipos de control con un único checkpoint. WanGP lo integra nativamente con descarga automática y detección del tipo de imagen de control.

Configuración	Profile mmgp	Tiempo/img	VRAM pico	RAM pinned	Veredicto
bf16 + ControlNet bf16	1 · todo VRAM	~19s	19.7 GB	18 GB	✓ Producción
INT8 + ControlNet bf16	1 · todo VRAM	~37s	13.6 GB	12 GB	Si VRAM limitada
bf16 + ControlNet bf16	4 · RAM shuttle	~44s	2.6 GB	18 GB	Lento
INT8 + ControlNet bf16	4 · RAM shuttle	~54s	2.6 GB	12 GB	Peor opción

Profile 1 = todo en VRAM. Profile 4 = mmgp shuttle RAM↔GPU en bloques de ~400 MB (vía WanGP). Nota contraintuitiva: INT8 profile 1 (37s) es más rápido que bf16 profile 4 (44s) —la dequantización en GPU es mucho más rápida que el shuttle RAM↔VRAM.

Hallazgo: el color del boceto no afecta al resultado

🎨

Blanco, azul, gris o amarillo — el resultado es idéntico

Probamos líneas blancas, grises, azules y amarillas sobre fondo negro. El ControlNet genera resultados prácticamente idénticos en todos los casos. Lo único que importa es el contraste. El motivo: el boceto pasa por el VAE encoder, que lo comprime a 16 canales latentes donde la información de color desaparece. A ese nivel, azul y blanco son equivalentes.

Invertir el boceto: obligatorio cuando el fondo es claro

Un boceto con líneas negras sobre fondo blanco produce artefactos: las líneas sangran a la imagen generada. La solución es invertir automáticamente.

Original

Negro sobre blanco
Artefactos visibles

✓ Invertido

Blanco sobre negro
Resultado limpio

💡

Detección automática

avg = np.mean(np.array(sketch))
if avg > 128: sketch = ImageOps.invert(sketch.convert("RGB"))

Funciona con papel escaneado, tablet o dibujo digital. WanGP no lo hace automáticamente —hay que implementarlo en el preprocesamiento de la API.

Control scale: el parámetro más importante

0.30

Libre · pierde
la estructura

0.50 ✓

Sweet spot:
fidelidad + realismo

0.65

Máxima fidelidad
estilo ilustrativo

0.80+

Cartoon / artefactos
No recomendado

El límite técnico: INT4 + ControlNet solo funciona en ComfyUI

La combinación ideal sería INT4 Nunchaku (8.5s) con ControlNet para boceto→imagen. No es posible fuera de ComfyUI. Cinco intentos de implementación, documentados a continuación.

Nunchaku INT4

Pesos: qweight / wscales / wzeros

Arch: NunchakuZImageTransformer2DModel

Forward: (x, t, cap_feats)

Control layers: no implementado

ControlNet diffusers / WanGP

Pesos: weight formato estándar

Arch: ZImageTransformer2DModel

Forward: (x_list, cap_feats_list, control_context_list)

Control layers: integrados en arquitectura

🔍

Por qué funciona en ComfyUI y no en diffusers o WanGP

ComfyUI evita el problema completamente. En lugar de inyectar el control dentro del transformer, usa un nodo externo (ZImageControlNetPatcher) que intercepta el forward pass via transformer_options en **kwargs. El transformer INT4 no necesita saber nada del ControlNet —el patcher lo gestiona externamente en cada step del loop de denoising.

WanGP inyecta el control directamente en la arquitectura del transformer durante la carga —lo cual es incompatible con el formato SVDQ de Nunchaku. Portar la solución de ComfyUI a WanGP o diffusers requeriría reimplementar el sistema de patching de nodos: semanas de trabajo para ahorrar 10 segundos frente al bf16. ROI negativo.

Resolución nativa y límites reales

Resolución nativa

1024×1024

Dominio de entrenamiento. Mejores resultados con resoluciones divisibles por 32.

Píxeles máximos

~4 MP

Por encima de ~2048×2048 sale del dominio de entrenamiento.

Aspect ratios

1:1 → 21:9

Buckets oficiales: 1280×720, 1152×896, 1344×576. Todos divisibles por 16.

4K real

Via upscaler

Generar a 1024–1280px y escalar 2×–4×. El Tile ControlNet incluido sirve para super-resolución guiada.

Stack recomendado para producción en 24 GB VRAM

Caso de uso	Modelo	Tiempo	VRAM	Notas
Txt2img / Img2img	Z-Image Turbo INT4 Nunchaku	8.5s	5.5 GB	Permanente en VRAM · pipeline diffusers nativo
Boceto → imagen	bf16 + ControlNet bf16 · mmgp profile 1	~19s	19.7 GB	Descargar INT4 previo (~7s swap) · WanGP
Estilo cinematográfico	Flux Schnell NF4	12.6s	10 GB	Opción alternativa a Z-Image

🔄

Coexistencia de modelos

Z-Image INT4 (5.5 GB) + Flux NF4 (10 GB) = 15.5 GB → ambos caben simultáneamente en 24 GB. El ControlNet bf16 profile 1 (19.7 GB) requiere descargar Flux primero: swap de ~7 segundos desde caché del sistema operativo.

Los hallazgos clave: lo que no encontrarás documentado en ningún otro sitio

INT4 Nunchaku supera a Flux Schnell en los cuatro parámetros que importan: velocidad (8.5s vs 12.6s), calidad fotorrealista en retratos, VRAM (5.5 vs 10 GB) y espacio en disco (4.5 vs 6.3 GB). La comparación justa requería INT4 vs INT4 —algo que no hacen los benchmarks publicados hasta ahora.

El módulo mmgp de WanGP cambia completamente la ecuación de VRAM. Con profile 4, un modelo de 12.3 GB corre con solo 3 GB de VRAM pico pinneando el transformer en RAM. Esto permite coexistir múltiples modelos grandes en 24 GB. El cuello de botella es el ancho de banda RAM↔GPU, no la VRAM.

El color del boceto no afecta al resultado del ControlNet. Blanco, gris, azul o amarillo producen imágenes prácticamente idénticas. El VAE encoder comprime toda la información de color antes de llegar al transformer —a nivel latente, los colores son indistinguibles. Solo importa el contraste con el fondo.

Invertir el boceto es obligatorio con fondo claro. Las líneas oscuras sobre fondo blanco sangran a la imagen generada a cualquier valor de control_scale. La detección automática por brillo medio resuelve el problema sin intervención del usuario.

INT8 profile 1 (37s) es más rápido que bf16 profile 4 (44s), aunque parece contraintuitivo. La dequantización en GPU es órdenes de magnitud más rápida que el shuttle RAM↔VRAM del profile 4 de mmgp. La velocidad y la eficiencia de memoria no siempre van de la mano.

INT4 + ControlNet es imposible fuera de ComfyUI por tres incompatibilidades simultáneas: formato de pesos SVDQ vs estándar, arquitectura del transformer sin soporte de control layers, y firma del método forward. WanGP inyecta el control dentro del transformer durante la carga —incompatible con Nunchaku. ComfyUI lo resuelve externamente via ZImageControlNetPatcher.

Z-Image Turbo INT4 Nunchaku es hoy la opción más sólida para generación fotorrealista local en hardware consumer de gama alta. Supera a Flux Schnell en velocidad y calidad para retratos, con menor consumo de VRAM y disco.

La infraestructura clave detrás de estos resultados es WanGP con su módulo mmgp: sin él, ejecutar modelos de 12+ GB en 24 GB de VRAM de forma eficiente no sería posible para la mayoría de casos de uso. Para plataformas de producción, el stack óptimo combina INT4 nativo para generación rápida con bf16 + ControlNet vía WanGP para boceto→imagen, intercambiando modelos según el tipo de solicitud.

Z-Image Turbo supera a
Flux Schnell en velocidad,
VRAM y calidad fotorrealista

WanGP — La interfaz que hace posibles estos benchmarks

Grupo de investigación

Los modelos: quién los hace, cuándo salieron y para qué sirve cada variante

Texto a imagen: benchmarks completos y comparativa con Flux

La comparación justa: INT4 vs INT4

Calidad visual: estilos distintos, no un ganador universal

El pipeline importa tanto como el modelo

RTX 3060 (12 GB): ¿viable?

Boceto a imagen: ControlNet Union 2.1 — todos los perfiles mmgp

Hallazgo: el color del boceto no afecta al resultado

Blanco, azul, gris o amarillo — el resultado es idéntico

Invertir el boceto: obligatorio cuando el fondo es claro

Detección automática

Control scale: el parámetro más importante

El límite técnico: INT4 + ControlNet solo funciona en ComfyUI

Nunchaku INT4

ControlNet diffusers / WanGP

Por qué funciona en ComfyUI y no en diffusers o WanGP

Resolución nativa y límites reales

Stack recomendado para producción en 24 GB VRAM

Coexistencia de modelos

Los hallazgos clave: lo que no encontrarás documentado en ningún otro sitio

Comentarios (0)

Dejar un Comentario

Z-Image Turbo supera aFlux Schnell en velocidad,VRAM y calidad fotorrealista

WanGP — La interfaz que hace posibles estos benchmarks

Grupo de investigación

Los modelos: quién los hace, cuándo salieron y para qué sirve cada variante

Texto a imagen: benchmarks completos y comparativa con Flux

La comparación justa: INT4 vs INT4

Calidad visual: estilos distintos, no un ganador universal

El pipeline importa tanto como el modelo

RTX 3060 (12 GB): ¿viable?

Boceto a imagen: ControlNet Union 2.1 — todos los perfiles mmgp

Hallazgo: el color del boceto no afecta al resultado

Blanco, azul, gris o amarillo — el resultado es idéntico

Invertir el boceto: obligatorio cuando el fondo es claro

Detección automática

Control scale: el parámetro más importante

El límite técnico: INT4 + ControlNet solo funciona en ComfyUI

Nunchaku INT4

ControlNet diffusers / WanGP

Por qué funciona en ComfyUI y no en diffusers o WanGP

Resolución nativa y límites reales

Stack recomendado para producción en 24 GB VRAM

Coexistencia de modelos

Los hallazgos clave: lo que no encontrarás documentado en ningún otro sitio

Comentarios (0)

Dejar un Comentario

Usamos cookies

Gestionar preferencias de cookies

Cookies estrictamente necesarias

Cookies de analítica

Z-Image Turbo supera a
Flux Schnell en velocidad,
VRAM y calidad fotorrealista