🔬
Grupo de investigación

Pruebas realizadas por el equipo de Screen Art sobre RTX 3090 Ti (24 GB VRAM), 96 GB RAM, Intel i7-12700KF. Todos los modelos se ejecutaron con cuantización NF4 mediante BitsAndBytesConfig de HuggingFace. Los benchmarks son mediciones propias sobre inferencia local, sin APIs externas.

Durante varias semanas ejecutamos una batería de pruebas comparando dos modelos de la familia Qwen3 de Alibaba Cloud: el Qwen3-8B (abril 2025) y el Qwen3-4B-Instruct-2507 (agosto 2025). El objetivo era determinar cuál es más adecuado para aplicaciones reales en español de España: agentes de voz telefónica, chatbots de WhatsApp y escritura creativa asistida por IA.

La hipótesis de partida era que el modelo con el doble de parámetros rendiría mejor. Los datos contradicen esa hipótesis.

Los modelos: fechas y especificaciones

Qwen3-8B · Abril 2025
Parámetros8.2B
Sin embeddings6.95B
Contexto nativo32 768 tok
Contexto con YaRN131 072 tok
Modosthinking + non
VRAM en NF47.3 GB pico
LicenciaApache 2.0
Qwen3-4B-Instruct-2507 · Agosto 2025
Parámetros4.0B
Sin embeddings3.6B
Contexto nativo262 144 tok
Contexto extendido1M tok (YaRN)
Modossolo non-thinking
VRAM en NF44.0 GB pico
LicenciaApache 2.0

El dato más relevante de la comparativa de especificaciones es el contexto nativo: el 4B-2507 dispone de 262.144 tokens nativamente, frente a los 32.768 del 8B. Una diferencia de 8 veces que se traduce en capacidad real para documentos largos, historiales extensos y novelas completas sin truncar.

Cronología de la familia Qwen3

Abril 2025 Lanzamiento original Qwen3 (0.6B, 1.7B, 4B, 8B, 14B, 30B-A3B, 235B)
21 jul 2025 Qwen3-235B-A22B-Instruct-2507
25 jul 2025 Qwen3-235B-A22B-Thinking-2507
30 jul 2025 Qwen3-30B-A3B-Instruct-2507
31 jul 2025 Qwen3-30B-A3B-Thinking-2507
06 ago 2025 Qwen3-4B-Instruct-2507 ← objeto de este análisis
06 ago 2025 Qwen3-4B-Thinking-2507
08 ago 2025 Soporte para 1M tokens en modelos grandes

El Qwen3-8B no recibió actualización 2507. Alibaba priorizó los tamaños 4B, 30B y 235B en esta ronda de mejoras, lo que explica parte de la diferencia de rendimiento.

Otros modelos evaluados y descartados

Antes de llegar a la comparativa final, evaluamos otros modelos como candidatos para producción en español. Todos se ejecutaron con cuantización NF4 en RTX 3090 Ti, salvo GPT-4o Mini, que se probó vía API oficial de OpenAI.

Qwen3-4B original (abril 2025)

El predecesor directo del 4B-2507. Presentaba problemas recurrentes en castellano peninsular: usaba «plano» en vez de «plan», mezclaba tuteo con usted en la misma respuesta, y generaba expresiones latinoamericanas («costo», «mismo» por «mismísimo») incluso con prompts explícitos. En conversaciones de más de cinco turnos repetía la misma muletilla de cierre hasta tres veces consecutivas y alucinaba datos («5 meses sin penalidad»). VRAM: 2.7 GB.

Google Gemma 3 4B IT

Evaluado como alternativa fuera del ecosistema Qwen. Presentó incompatibilidad con el rol system en su chat template, obligando a inyectar las instrucciones dentro del primer mensaje de usuario con workarounds. Exige además alternancia estricta user→assistant→user, lo que complica flujos donde el agente saluda primero. La calidad del español fue inferior al 4B-2507, con más relleno y fallos en los últimos turnos. VRAM: ~3.5 GB.

Microsoft Phi-4-mini (3.8B)

El modelo más pequeño evaluado. Su español resultó inviable para producción: vocabulario limitado, tendencia a responder en inglés ante preguntas ambiguas, e incapacidad para mantener un registro formal consistente. En las pruebas de conversación simulada generó respuestas incoherentes en castellano. Descartado sin posibilidad de mejora por prompt.

GPT-4o Mini (API, OpenAI)

Incluido como referencia de modelo comercial. En la misma conversación de 7 turnos con el operador de fibra óptica, ofreció la mejor calidad gramatical de todos los modelos testados: cero errores, cero alucinaciones, lenguaje más natural. Sin embargo, su latencia media fue de 1.43 s solo para el LLM vía API, frente a 0.63 s del 4B-2507 en local. Con streaming la latencia bajó a 1.35 s pero siguió siendo superior. No cumple RGPD para datos de clientes europeos al procesar en servidores de EE.UU.

Ranking de modelos evaluados

01Qwen3-4B-Instruct-2507Mejor relación calidad/recursos · 262K ctx · RGPD ✅
02GPT-4o Mini (API)Mejor calidad absoluta · latencia alta · RGPD ❌
03Qwen3-8BMás parámetros · sin ventaja práctica
04Qwen3-4B originalProblemas de español no corregibles por prompt
05Gemma 3 4B ITWorkarounds necesarios · español inferior
06Phi-4-miniEspañol insuficiente para producción

Metodología

Todos los tests se ejecutaron con la misma configuración de cuantización:

BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_use_double_quant=True,
)

Test 1 — Agente de voz telefónica

01Vocal9 · FibraMax · 7 turnos

Simulamos una conversación comercial de 7 turnos entre una clienta y un operador de una empresa de fibra óptica, con restricciones estrictas propias de un agente de voz: máximo 2 frases por respuesta, sin repeticiones, precios exactos, terminología española correcta.

Parámetros: max_new_tokens=120 · temperature=0.7 · repetition_penalty=1.2

Resultados — Agente de voz
Criterio 4B-2507 8B
Puntuación total 67/70 68/70
Latencia media 0.63 s 0.72 s
VRAM pico 4.0 GB 7.3 GB
Usa «coste» (no «costo»)
Usa «plan» (no «plano»)
Brevedad ≤ 2 frases 6/7 7/7
Información correcta ⚠️ error T4

El error más relevante del 8B ocurrió en el turno 4: ante la pregunta «¿la instalación tiene algún coste?», mezcló instalación gratuita con penalización por cancelación anticipada, transmitiendo información incorrecta al cliente. El 4B-2507 respondió con precisión: «No, la instalación es completamente gratuita con permanencia de 12 meses.»

Veredicto: empate técnico en puntuación, pero el 4B-2507 usa la mitad de VRAM y es un 13% más rápido, lo que se traduce en más llamadas simultáneas con el mismo hardware.

Test 2 — Agente de WhatsApp con memoria entre sesiones

02MuseRelay · Clínica dental · 3 sesiones

Simulamos tres sesiones separadas de un cliente con el chatbot de una clínica dental, con días de diferencia entre cada sesión. El test evaluaba memoria del contexto, coherencia temporal y precisión de información a lo largo del tiempo.

Parámetros: max_new_tokens=200 · temperature=0.7 · repetition_penalty=1.1

30/304B-2507
26/308B
−4 ptDiferencia
Puntuación por sesión
Sesión 4B-2507 8B Fallo del 8B
Sesión 1 — Primer contacto 10/10 10/10
Sesión 2 — Tras cancelar cita 10/10 8/10 No mencionó el precio del empaste (80€)
Sesión 3 — Post-tratamiento 10/10 8/10 No conectó «fui el lunes» con la cita agendada

El 4B-2507 recordó todos los detalles a lo largo de las tres sesiones: nombre del cliente, cita cancelada, dolor de muelas en el lado derecho, interés en el blanqueamiento por boda en dos meses, precio con descuento. El 8B fue coherente en lo básico pero perdió detalles específicos en las sesiones posteriores.

Veredicto: 4B-2507 gana con claridad. Su contexto de 262K tokens —frente a los 32K del 8B— proporciona una ventaja estructural para historiales largos de conversación.

Test 3 — Escritura creativa: Capítulo 5 de thriller psicológico

03MuseScript · «El Silencio del Yo» · 4 capítulos de contexto

Proporcionamos los cuatro primeros capítulos de una novela de thriller psicológico en español y pedimos a cada modelo que generara el Capítulo 5 completo (800–1000 palabras) manteniendo estilo, atmósfera y coherencia con los personajes establecidos.

Parámetros: max_new_tokens=1500 · temperature=0.85 · repetition_penalty=1.05

Qwen3-4B-2507 — 912 palabras
Qwen3-8B — 931 palabras
Recuerda el número 8 de Clara y su significado de bucle. Detecta la postura de Marcos como exmilitar. El elemento sobrenatural es un olor inidentificable que Marcos percibe en la esquina — sutil, sin explicación, perturbador. Fiel al tono del original.
Introduce un espejo en la sala común que no existe en los capítulos anteriores. El elemento sobrenatural —el espejo que se rompe— es demasiado explícito para el tono del original. Más cinematográfico pero menos fiel.
Veredicto: el 4B-2507 es más fiel al material original y genera detalles más sutiles. El 8B escribe un thriller más convencional pero menos ajustado al estilo establecido.

Test 4 — Análisis literario y simbolismo

04Comprensión narrativa profunda

Con el mismo material narrativo, pedimos análisis psicológico de personajes y detección del simbolismo recurrente en la novela.

El 4B-2507 ofreció la interpretación más original sobre las sombras que se quedan atrás en la parada del autobús: «Las sombras están en dirección contraria → anticipa que el viaje no es para descubrirse sino para desaparecer.» Esta lectura anticipatoria de la trama es sofisticada. El 8B produjo análisis más genérico e incluyó un error tipográfico («nega activa» en lugar de «negación activa»).

Veredicto: 4B-2507 gana en análisis literario. Menor tamaño no implica menor capacidad interpretativa cuando el entrenamiento es más reciente y ajustado.

Test 5 — Estrategia de negocio con presupuesto de 2.000€

05Razonamiento estratégico · RGPD · Mercado español

Preguntamos a ambos modelos cuál de cinco productos SaaS lanzarían al mercado español con 2.000€ de presupuesto de marketing, con plan de acción de 30 días detallado.

4B-2507 — Elige Factubase
8B — Elige MuseRelay
Razonamiento sólido: obligatoriedad legal de VeriFactu, demanda pull, CAC bajo. Incluye advertencias clave: «no uses dinero en SEO ni influencers en 30 días», «apunta solo a PYMEs de 1–5 empleados». ROI coherente. Sin errores.
Recomienda comprar listas de correos electrónicos —práctica que viola el RGPD en España. Inventa estadísticas atribuyéndolas a Statista. El plan es menos preciso y contiene un error legal grave.
Veredicto: 4B-2507 gana con claridad. El consejo del 8B incluye una recomendación que podría derivar en sanción de la Agencia Española de Protección de Datos.

Resumen comparativo

Resultados por prueba
Test 4B-2507 8B Ganador
Agente de voz telefónica 67/70 68/70 Empate
WhatsApp multi-sesión 30/30 26/30 4B-2507
Escritura creativa Más fiel Más dramático 4B-2507
Análisis literario Más profundo Más genérico 4B-2507
Estrategia de negocio Sin errores Error RGPD 4B-2507
Diálogos multi-personaje Más monólogo Más dinámico 8B
VRAM 4.0 GB 7.3 GB 4B-2507
Latencia 0.63 s 0.72 s 4B-2507
Contexto nativo 262 144 tok 32 768 tok 4B-2507

Conclusiones

El Qwen3-4B-Instruct-2507 es uno de los avances más significativos en modelos de lenguaje pequeños del segundo semestre de 2025. Con cuatro meses de ventaja de entrenamiento sobre el Qwen3-8B original, supera o iguala a su hermano mayor en casi todas las categorías de uso práctico, usando la mitad de VRAM y siendo un 13% más rápido.

La diferencia estructural más importante no está en la calidad en tareas simples —ahí están empatados— sino en el contexto nativo de 262.144 tokens frente a los 32.768 del 8B. Para aplicaciones que requieren memoria larga, el 4B-2507 tiene una ventaja que el 8B no puede compensar con más parámetros.

El único caso donde el 8B mantiene ventaja clara es en diálogos narrativos con múltiples personajes interactuando simultáneamente, donde su mayor capacidad de gestión de voces distintas se aprecia. Y, en teoría, el 8B podría destacar más en tareas de razonamiento complejo gracias a su modo thinking, algo que el 4B-2507 no tiene al ser exclusivamente non-thinking.

Recomendaciones por caso de uso
Aplicación Modelo recomendado Motivo
Agentes de voz (Vocal9) 4B-2507 50% más llamadas simultáneas, igual calidad
Chatbots WhatsApp (MuseRelay) 4B-2507 262K contexto, mejor memoria multi-sesión
Escritura asistida (MuseScript) 4B-2507 Mayor fidelidad al material original
Diálogos multi-personaje 8B Mejor gestión de voces simultáneas
Razonamiento complejo 8B (thinking) Modo thinking no disponible en 4B-2507

 

Todos los benchmarks de este artículo se realizaron en infraestructura propia de Screen Art en Mallorca, España, con modelos ejecutándose completamente en local. Ningún dato de prueba salió de nuestros servidores.