Z-Image Turbo supera a
Flux Schnell en velocidad,
VRAM y calidad fotorrealista
El equipo de investigación de Screen Art ha sometido a prueba Z-Image Turbo —el modelo de generación de imágenes lanzado por Alibaba en noviembre de 2025— en todas sus variantes sobre una RTX 3090 Ti y una RTX 3060. Los resultados redefinen el estándar de generación local en hardware consumer.
Si seguías el mundo de la generación de imágenes con IA en 2025, sabías que Flux Schnell era el estándar imbatible para hardware consumer: rápido, ligero, y con una calidad que ningún modelo open source había igualado. En noviembre de 2025, Alibaba cambió eso.
Z-Image Turbo, desarrollado por el Tongyi Lab, es una arquitectura distinta —S3-DiT, con procesamiento unificado de tokens de texto e imagen— destilada para generar en 8 pasos con calidad fotorrealista que supera a Flux en retratos y texturas de piel. Lo que sigue son los resultados de las pruebas, realizadas a través de WanGP y del pipeline nativo de diffusers.
WanGP — La interfaz que hace posibles estos benchmarks
WanGP (github.com/deepbeepmeep/Wan2GP) es un proyecto open source creado por DeepBeepMeep en febrero de 2025, inicialmente como una versión optimizada de Wan 2.1 de Alibaba para GPUs con poca VRAM. Hoy, en su versión 10.x, es una interfaz Gradio completa que soporta más de 20 modelos distintos: Wan 2.1/2.2, Z-Image, Qwen Image, Flux, Hunyuan Video, LTX Video, y sistemas de audio/TTS como Qwen3-TTS y Ace Step.
Su característica más relevante para estos benchmarks es el módulo mmgp (Memory Management for GPU Poor), un sistema de gestión de memoria que permite ejecutar modelos que superan la VRAM disponible shuttleando capas entre RAM y GPU de forma dinámica. mmgp define varios perfiles de ejecución:
El soporte de Z-Image en WanGP llegó en diciembre de 2025, y el ControlNet Union 2.1 fue integrado poco después. Todos los benchmarks de esta sección de perfiles usan mmgp a través de WanGP. Los tests de generación INT4 usan el pipeline nativo de diffusers con Nunchaku.
Grupo de investigación
Pruebas realizadas por el equipo de Screen Art sobre hardware propio. Los resultados pueden variar según configuración de sistema, versión de drivers y carga concurrente de GPU.
Los modelos: quién los hace, cuándo salieron y para qué sirve cada variante
Z-Image Turbo no es un único checkpoint. Es una familia de variantes desarrolladas por distintos equipos del ecosistema Alibaba y la comunidad académica, con propósitos y requisitos de hardware muy diferentes.
Texto a imagen: benchmarks completos y comparativa con Flux
Todos los tests a 1024×1024 px con los mismos prompts y seeds. La comparación que importa: INT4 vs INT4.
La comparación justa: INT4 vs INT4
Las primeras pruebas de Z-Image usaban bf16 con mmgp profile 4 en WanGP —el modelo de 12.3 GB shuttleando bloques desde RAM. Flux Schnell, en cambio, tiene su transformer NF4 residente en VRAM (6.3 GB). Era como comparar dos coches donde uno lleva el freno de mano puesto.
La comparación justa es cuantizado vs cuantizado: Z-Image Nunchaku INT4 (4.5 GB en VRAM, pipeline nativo) frente a Flux Schnell NF4 (6.3 GB en VRAM). Resultado: Z-Image gana en velocidad, ocupa menos VRAM y menos disco.
| Modelo | Tiempo/img | VRAM pico | RAM CPU | Disco | Carga inicial |
|---|---|---|---|---|---|
| Z-Image Turbo · INT4 Nunchaku | 8.5s | 5.5 GB | 9 GB | 4.5 GB | 16s |
| TwinFlow bf16 · 4 steps (mmgp 4) | 10.3s | 3.0 GB | 20 GB | 12.3 GB | 8s |
| Flux Schnell · NF4 | 12.6s | 10 GB | 20 GB | 6.3 GB | 40s |
| Z-Image Turbo · bf16 (mmgp 4) | 18.8s | 3.0 GB | 20 GB | 12.3 GB | 8s |
RTX 3090 Ti · 1024×1024 px · mismos prompts y seeds. Los modelos bf16 usan mmgp profile 4 vía WanGP (modelo pinned en RAM, bloques de ~345 MB en VRAM). INT4 usa pipeline nativo diffusers + Nunchaku.
Calidad visual: estilos distintos, no un ganador universal
| Aspecto | Z-Image Turbo / INT4 | Flux Schnell NF4 |
|---|---|---|
| Textura de piel · poros | Superior — imperfecciones naturales, pecas | Piel suave, retocada |
| Close-ups · caras | Fotorrealista — arrugas, microdetalle | Expresiones intensificadas, CGI |
| Seguimiento del prompt | Falla ocasionalmente en grupos | Más fiable |
| Iluminación | Natural, editorial | Cinematográfica, saturada |
| Estilo general | Fotografía documental | Arte digital / Midjourney |
El pipeline importa tanto como el modelo
El mismo checkpoint puede dar resultados muy distintos según el pipeline de inferencia. Un error anatómico recurrente (una bailarina con tres piernas generada en WanGP) desapareció completamente al cambiar al pipeline diffusers nativo —sin tocar el checkpoint ni el prompt. Siempre que sea posible, los benchmarks finales de producción usan el pipeline nativo.
RTX 3060 (12 GB): ¿viable?
Z-Image Turbo INT4 funciona en la RTX 3060 con un tiempo de generación de aproximadamente 109 segundos por imagen. Aceptable para colas asíncronas, inviable para tiempo real. El ControlNet requiere ~13 GB de VRAM en profile 1 —por encima del límite de la 3060.
Boceto a imagen: ControlNet Union 2.1 — todos los perfiles mmgp
El ControlNet Union 2.1 de Z-Image (lanzado en diciembre 2025) soporta todos los tipos de control con un único checkpoint. WanGP lo integra nativamente con descarga automática y detección del tipo de imagen de control.
| Configuración | Profile mmgp | Tiempo/img | VRAM pico | RAM pinned | Veredicto |
|---|---|---|---|---|---|
| bf16 + ControlNet bf16 | 1 · todo VRAM | ~19s | 19.7 GB | 18 GB | ✓ Producción |
| INT8 + ControlNet bf16 | 1 · todo VRAM | ~37s | 13.6 GB | 12 GB | Si VRAM limitada |
| bf16 + ControlNet bf16 | 4 · RAM shuttle | ~44s | 2.6 GB | 18 GB | Lento |
| INT8 + ControlNet bf16 | 4 · RAM shuttle | ~54s | 2.6 GB | 12 GB | Peor opción |
Profile 1 = todo en VRAM. Profile 4 = mmgp shuttle RAM↔GPU en bloques de ~400 MB (vía WanGP). Nota contraintuitiva: INT8 profile 1 (37s) es más rápido que bf16 profile 4 (44s) —la dequantización en GPU es mucho más rápida que el shuttle RAM↔VRAM.
Hallazgo: el color del boceto no afecta al resultado
Blanco, azul, gris o amarillo — el resultado es idéntico
Probamos líneas blancas, grises, azules y amarillas sobre fondo negro. El ControlNet genera resultados prácticamente idénticos en todos los casos. Lo único que importa es el contraste. El motivo: el boceto pasa por el VAE encoder, que lo comprime a 16 canales latentes donde la información de color desaparece. A ese nivel, azul y blanco son equivalentes.
Invertir el boceto: obligatorio cuando el fondo es claro
Un boceto con líneas negras sobre fondo blanco produce artefactos: las líneas sangran a la imagen generada. La solución es invertir automáticamente.
Detección automática
avg = np.mean(np.array(sketch))if avg > 128: sketch = ImageOps.invert(sketch.convert("RGB"))
Funciona con papel escaneado, tablet o dibujo digital. WanGP no lo hace automáticamente —hay que implementarlo en el preprocesamiento de la API.
Control scale: el parámetro más importante
El límite técnico: INT4 + ControlNet solo funciona en ComfyUI
La combinación ideal sería INT4 Nunchaku (8.5s) con ControlNet para boceto→imagen. No es posible fuera de ComfyUI. Cinco intentos de implementación, documentados a continuación.
Nunchaku INT4
qweight / wscales / wzerosNunchakuZImageTransformer2DModel(x, t, cap_feats)ControlNet diffusers / WanGP
weight formato estándarZImageTransformer2DModel(x_list, cap_feats_list, control_context_list)Por qué funciona en ComfyUI y no en diffusers o WanGP
ComfyUI evita el problema completamente. En lugar de inyectar el control dentro del transformer, usa un nodo externo (ZImageControlNetPatcher) que intercepta el forward pass via transformer_options en **kwargs. El transformer INT4 no necesita saber nada del ControlNet —el patcher lo gestiona externamente en cada step del loop de denoising.
WanGP inyecta el control directamente en la arquitectura del transformer durante la carga —lo cual es incompatible con el formato SVDQ de Nunchaku. Portar la solución de ComfyUI a WanGP o diffusers requeriría reimplementar el sistema de patching de nodos: semanas de trabajo para ahorrar 10 segundos frente al bf16. ROI negativo.
Resolución nativa y límites reales
Stack recomendado para producción en 24 GB VRAM
| Caso de uso | Modelo | Tiempo | VRAM | Notas |
|---|---|---|---|---|
| Txt2img / Img2img | Z-Image Turbo INT4 Nunchaku | 8.5s | 5.5 GB | Permanente en VRAM · pipeline diffusers nativo |
| Boceto → imagen | bf16 + ControlNet bf16 · mmgp profile 1 | ~19s | 19.7 GB | Descargar INT4 previo (~7s swap) · WanGP |
| Estilo cinematográfico | Flux Schnell NF4 | 12.6s | 10 GB | Opción alternativa a Z-Image |
Coexistencia de modelos
Z-Image INT4 (5.5 GB) + Flux NF4 (10 GB) = 15.5 GB → ambos caben simultáneamente en 24 GB. El ControlNet bf16 profile 1 (19.7 GB) requiere descargar Flux primero: swap de ~7 segundos desde caché del sistema operativo.
Los hallazgos clave: lo que no encontrarás documentado en ningún otro sitio
INT4 Nunchaku supera a Flux Schnell en los cuatro parámetros que importan: velocidad (8.5s vs 12.6s), calidad fotorrealista en retratos, VRAM (5.5 vs 10 GB) y espacio en disco (4.5 vs 6.3 GB). La comparación justa requería INT4 vs INT4 —algo que no hacen los benchmarks publicados hasta ahora.
El módulo mmgp de WanGP cambia completamente la ecuación de VRAM. Con profile 4, un modelo de 12.3 GB corre con solo 3 GB de VRAM pico pinneando el transformer en RAM. Esto permite coexistir múltiples modelos grandes en 24 GB. El cuello de botella es el ancho de banda RAM↔GPU, no la VRAM.
El color del boceto no afecta al resultado del ControlNet. Blanco, gris, azul o amarillo producen imágenes prácticamente idénticas. El VAE encoder comprime toda la información de color antes de llegar al transformer —a nivel latente, los colores son indistinguibles. Solo importa el contraste con el fondo.
Invertir el boceto es obligatorio con fondo claro. Las líneas oscuras sobre fondo blanco sangran a la imagen generada a cualquier valor de control_scale. La detección automática por brillo medio resuelve el problema sin intervención del usuario.
INT8 profile 1 (37s) es más rápido que bf16 profile 4 (44s), aunque parece contraintuitivo. La dequantización en GPU es órdenes de magnitud más rápida que el shuttle RAM↔VRAM del profile 4 de mmgp. La velocidad y la eficiencia de memoria no siempre van de la mano.
INT4 + ControlNet es imposible fuera de ComfyUI por tres incompatibilidades simultáneas: formato de pesos SVDQ vs estándar, arquitectura del transformer sin soporte de control layers, y firma del método forward. WanGP inyecta el control dentro del transformer durante la carga —incompatible con Nunchaku. ComfyUI lo resuelve externamente via ZImageControlNetPatcher.
Z-Image Turbo INT4 Nunchaku es hoy la opción más sólida para generación fotorrealista local en hardware consumer de gama alta. Supera a Flux Schnell en velocidad y calidad para retratos, con menor consumo de VRAM y disco.
La infraestructura clave detrás de estos resultados es WanGP con su módulo mmgp: sin él, ejecutar modelos de 12+ GB en 24 GB de VRAM de forma eficiente no sería posible para la mayoría de casos de uso. Para plataformas de producción, el stack óptimo combina INT4 nativo para generación rápida con bf16 + ControlNet vía WanGP para boceto→imagen, intercambiando modelos según el tipo de solicitud.