Qwen3-4B-2507 vs Qwen3-8B: pruebas exhaustivas en español para agentes de voz, WhatsApp y escritura creativa
Pruebas realizadas por el equipo de Screen Art sobre RTX 3090 Ti (24 GB VRAM), 96 GB RAM, Intel i7-12700KF. Todos los modelos se ejecutaron con cuantización NF4 mediante BitsAndBytesConfig de HuggingFace. Los benchmarks son mediciones propias sobre inferencia local, sin APIs externas.
Durante varias semanas ejecutamos una batería de pruebas comparando dos modelos de la familia Qwen3 de Alibaba Cloud: el Qwen3-8B (abril 2025) y el Qwen3-4B-Instruct-2507 (agosto 2025). El objetivo era determinar cuál es más adecuado para aplicaciones reales en español de España: agentes de voz telefónica, chatbots de WhatsApp y escritura creativa asistida por IA.
La hipótesis de partida era que el modelo con el doble de parámetros rendiría mejor. Los datos contradicen esa hipótesis.
Los modelos: fechas y especificaciones
El dato más relevante de la comparativa de especificaciones es el contexto nativo: el 4B-2507 dispone de 262.144 tokens nativamente, frente a los 32.768 del 8B. Una diferencia de 8 veces que se traduce en capacidad real para documentos largos, historiales extensos y novelas completas sin truncar.
Cronología de la familia Qwen3
21 jul 2025 Qwen3-235B-A22B-Instruct-2507
25 jul 2025 Qwen3-235B-A22B-Thinking-2507
30 jul 2025 Qwen3-30B-A3B-Instruct-2507
31 jul 2025 Qwen3-30B-A3B-Thinking-2507
06 ago 2025 Qwen3-4B-Instruct-2507 ← objeto de este análisis
06 ago 2025 Qwen3-4B-Thinking-2507
08 ago 2025 Soporte para 1M tokens en modelos grandes
El Qwen3-8B no recibió actualización 2507. Alibaba priorizó los tamaños 4B, 30B y 235B en esta ronda de mejoras, lo que explica parte de la diferencia de rendimiento.
Otros modelos evaluados y descartados
Antes de llegar a la comparativa final, evaluamos otros modelos como candidatos para producción en español. Todos se ejecutaron con cuantización NF4 en RTX 3090 Ti, salvo GPT-4o Mini, que se probó vía API oficial de OpenAI.
Qwen3-4B original (abril 2025)
El predecesor directo del 4B-2507. Presentaba problemas recurrentes en castellano peninsular: usaba «plano» en vez de «plan», mezclaba tuteo con usted en la misma respuesta, y generaba expresiones latinoamericanas («costo», «mismo» por «mismísimo») incluso con prompts explícitos. En conversaciones de más de cinco turnos repetía la misma muletilla de cierre hasta tres veces consecutivas y alucinaba datos («5 meses sin penalidad»). VRAM: 2.7 GB.
Google Gemma 3 4B IT
Evaluado como alternativa fuera del ecosistema Qwen. Presentó incompatibilidad con el rol system en su chat template, obligando a inyectar las instrucciones dentro del primer mensaje de usuario con workarounds. Exige además alternancia estricta user→assistant→user, lo que complica flujos donde el agente saluda primero. La calidad del español fue inferior al 4B-2507, con más relleno y fallos en los últimos turnos. VRAM: ~3.5 GB.
Microsoft Phi-4-mini (3.8B)
El modelo más pequeño evaluado. Su español resultó inviable para producción: vocabulario limitado, tendencia a responder en inglés ante preguntas ambiguas, e incapacidad para mantener un registro formal consistente. En las pruebas de conversación simulada generó respuestas incoherentes en castellano. Descartado sin posibilidad de mejora por prompt.
GPT-4o Mini (API, OpenAI)
Incluido como referencia de modelo comercial. En la misma conversación de 7 turnos con el operador de fibra óptica, ofreció la mejor calidad gramatical de todos los modelos testados: cero errores, cero alucinaciones, lenguaje más natural. Sin embargo, su latencia media fue de 1.43 s solo para el LLM vía API, frente a 0.63 s del 4B-2507 en local. Con streaming la latencia bajó a 1.35 s pero siguió siendo superior. No cumple RGPD para datos de clientes europeos al procesar en servidores de EE.UU.
Ranking de modelos evaluados
Metodología
Todos los tests se ejecutaron con la misma configuración de cuantización:
BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_use_double_quant=True,
)
Test 1 — Agente de voz telefónica
Simulamos una conversación comercial de 7 turnos entre una clienta y un operador de una empresa de fibra óptica, con restricciones estrictas propias de un agente de voz: máximo 2 frases por respuesta, sin repeticiones, precios exactos, terminología española correcta.
Parámetros: max_new_tokens=120 · temperature=0.7 · repetition_penalty=1.2
El error más relevante del 8B ocurrió en el turno 4: ante la pregunta «¿la instalación tiene algún coste?», mezcló instalación gratuita con penalización por cancelación anticipada, transmitiendo información incorrecta al cliente. El 4B-2507 respondió con precisión: «No, la instalación es completamente gratuita con permanencia de 12 meses.»
Test 2 — Agente de WhatsApp con memoria entre sesiones
Simulamos tres sesiones separadas de un cliente con el chatbot de una clínica dental, con días de diferencia entre cada sesión. El test evaluaba memoria del contexto, coherencia temporal y precisión de información a lo largo del tiempo.
Parámetros: max_new_tokens=200 · temperature=0.7 · repetition_penalty=1.1
El 4B-2507 recordó todos los detalles a lo largo de las tres sesiones: nombre del cliente, cita cancelada, dolor de muelas en el lado derecho, interés en el blanqueamiento por boda en dos meses, precio con descuento. El 8B fue coherente en lo básico pero perdió detalles específicos en las sesiones posteriores.
Test 3 — Escritura creativa: Capítulo 5 de thriller psicológico
Proporcionamos los cuatro primeros capítulos de una novela de thriller psicológico en español y pedimos a cada modelo que generara el Capítulo 5 completo (800–1000 palabras) manteniendo estilo, atmósfera y coherencia con los personajes establecidos.
Parámetros: max_new_tokens=1500 · temperature=0.85 · repetition_penalty=1.05
Test 4 — Análisis literario y simbolismo
Con el mismo material narrativo, pedimos análisis psicológico de personajes y detección del simbolismo recurrente en la novela.
El 4B-2507 ofreció la interpretación más original sobre las sombras que se quedan atrás en la parada del autobús: «Las sombras están en dirección contraria → anticipa que el viaje no es para descubrirse sino para desaparecer.» Esta lectura anticipatoria de la trama es sofisticada. El 8B produjo análisis más genérico e incluyó un error tipográfico («nega activa» en lugar de «negación activa»).
Test 5 — Estrategia de negocio con presupuesto de 2.000€
Preguntamos a ambos modelos cuál de cinco productos SaaS lanzarían al mercado español con 2.000€ de presupuesto de marketing, con plan de acción de 30 días detallado.
Resumen comparativo
Conclusiones
El Qwen3-4B-Instruct-2507 es uno de los avances más significativos en modelos de lenguaje pequeños del segundo semestre de 2025. Con cuatro meses de ventaja de entrenamiento sobre el Qwen3-8B original, supera o iguala a su hermano mayor en casi todas las categorías de uso práctico, usando la mitad de VRAM y siendo un 13% más rápido.
La diferencia estructural más importante no está en la calidad en tareas simples —ahí están empatados— sino en el contexto nativo de 262.144 tokens frente a los 32.768 del 8B. Para aplicaciones que requieren memoria larga, el 4B-2507 tiene una ventaja que el 8B no puede compensar con más parámetros.
El único caso donde el 8B mantiene ventaja clara es en diálogos narrativos con múltiples personajes interactuando simultáneamente, donde su mayor capacidad de gestión de voces distintas se aprecia. Y, en teoría, el 8B podría destacar más en tareas de razonamiento complejo gracias a su modo thinking, algo que el 4B-2507 no tiene al ser exclusivamente non-thinking.
Todos los benchmarks de este artículo se realizaron en infraestructura propia de Screen Art en Mallorca, España, con modelos ejecutándose completamente en local. Ningún dato de prueba salió de nuestros servidores.