Gemma 4: rendimiento real en GPU consumer y requisitos de VRAM

Gemma 4 es el modelo open source más capaz que ha publicado Google. Lanzado el 2 de abril de 2026 bajo licencia Apache 2.0, viene en cuatro tamaños (desde 2B parámetros para móvil hasta 31B para workstation) y muestra saltos de rendimiento que no son incrementales: en matemáticas pasó de 20.8% a 89.2%, en coding de 29.1% a 80%, y en uso de herramientas de 6.6% a 86.4%. Todo respecto a Gemma 3. Es el primer Gemma que puedes usar comercialmente sin restricciones.

Resumen rápido

4 tamaños: E2B (móvil), E4B (portátil), 26B MoE (velocidad), 31B Dense (calidad máxima)
31B: #3 modelo open del mundo en Arena AI. Compite con modelos 20x más grandes
Licencia Apache 2.0: uso comercial sin restricciones (primera vez en Gemma)
Multimodal nativo: texto, imagen, vídeo. Los modelos edge también entienden audio
Contexto: 128K (edge) y 256K (31B/26B)
Ejecutable en GPU de consumo (16-20 GB VRAM para versiones cuantizadas)

Qué es Gemma 4 y por qué importa

Gemma 4 es la cuarta generación de modelos abiertos de Google DeepMind, construida sobre la misma base de investigación que Gemini 3 (el modelo privado de Google). La diferencia clave con Gemini es que Gemma publica los pesos del modelo para que cualquiera los descargue y ejecute en su propio hardware.

Importa por tres razones:

Rendimiento por parámetro sin precedentes. Un modelo de 31B parámetros compitiendo con modelos de 400B+ es algo que no se había visto antes a este nivel. Gemma 4 31B es el #3 entre todos los modelos open del mundo en Arena AI, superando a modelos 20 veces más grandes.

Apache 2.0 por primera vez. Las versiones anteriores de Gemma tenían licencias restrictivas con cláusulas de no competencia y límites de usuarios activos. Gemma 4 es Apache 2.0 puro: uso comercial sin restricciones, modificación libre, distribución libre. Esto lo pone al mismo nivel legal que Qwen y Mistral.

Ejecutable en hardware de consumo. El modelo de 26B MoE cuantizado cabe en 16-18 GB de VRAM. El de 31B cuantizado en 17-20 GB. Esto significa que una RTX 4090 (24 GB) o una RTX 3090 (24 GB) pueden ejecutar los modelos grandes de Gemma 4 localmente. Los modelos edge (E2B, E4B) corren en móviles y Raspberry Pi.

Los 4 tamaños de Gemma 4 y para qué hardware sirve cada uno

Modelo	Parámetros	Activos en inferencia	Contexto	Hardware mínimo	Ideal para
E2B	~2.3B	~2B	128K	Móvil, Raspberry Pi, Jetson Nano	Apps móviles, IoT, on-device
E4B	~4B	~4B	128K	Portátil con GPU integrada	Asistente local en portátil, prototipado
26B MoE	26B	3.8B	256K	GPU 16-18 GB (RTX 3090/4090)	Máxima velocidad, agentes, coding fluido
31B Dense	31B	31B	256K	GPU 17-20 GB (cuantizado) / 80 GB (bf16)	Máxima calidad, fine-tuning, razonamiento

El modelo 26B MoE es el más interesante para desarrolladores que quieren velocidad. Solo activa 3.8B parámetros por token (de los 26B totales), lo que le da una velocidad de generación de hasta 300 tokens/segundo en hardware tipo Mac Studio M2 Ultra. Tienes la inteligencia de un modelo grande con la velocidad de uno pequeño.

El 31B Dense activa todos sus parámetros, lo que le da la máxima calidad pero es más lento y consume más VRAM. Es la opción para fine-tuning y para tareas donde la calidad prima sobre la velocidad.

Benchmarks de Gemma 4: los números que importan (y los que necesitan contexto)

Los saltos respecto a Gemma 3 son los más grandes que se han visto en una generación de modelos open source:

Benchmark	Gemma 3 27B	Gemma 4 31B	Gemma 4 26B MoE	Cambio
AIME 2026 (matemáticas)	20.8%	89.2%	88.3%	+330%
LiveCodeBench v6 (coding)	29.1%	80.0%	77.1%	+175%
t2-bench (uso de herramientas)	6.6%	86.4%	N/D	+1200%
GPQA Diamond (ciencia)	42.4%	84.3%	82.3%	+99%
Arena AI (ELO)	1365	1452	1441	+87 pts

El salto más significativo para desarrolladores es el de t2-bench (uso agentic de herramientas): de 6.6% a 86.4%. Esto indica que Gemma 4 puede ejecutar flujos de trabajo autónomos con herramientas externas (APIs, bases de datos, function calling) de forma fiable. Gemma 3 era prácticamente inútil para esto.

Contexto necesario: estos benchmarks son impresionantes dentro del mundo open source, pero Gemma 4 no supera a los mejores modelos privados (Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro) en tareas de razonamiento complejo y proyectos grandes. El 31B está en el top 3 de modelos open, no en el top 3 absoluto. La diferencia con los privados se ha reducido enormemente, pero sigue existiendo en consistencia, respuestas largas y tareas muy difíciles.

Gemma 4 vs Llama 4 vs Qwen 3.5 vs DeepSeek: comparativa de modelos open source

	Gemma 4 31B	Llama 4	Qwen 3.5 27B	DeepSeek V3.2
Ranking Arena AI	#3 open	Más descargado	Alto (index 42)	Top tier
AIME 2026	89.2%	88%	Alto	Muy alto
Licencia	Apache 2.0	Custom (límite 700M MAU)	Apache 2.0	Apache 2.0
Multimodal	Texto + imagen + vídeo + audio (edge)	Texto + imagen	Texto + imagen	Texto (V4 será multimodal)
Contexto	256K	Variable	128K+	128K (V3.2)
Punto fuerte	Eficiencia por parámetro, multimodal, Apache 2.0	Ecosistema, adopción enterprise	Razonamiento puro, multilingüe	Coding, coste, open source
Limitación	Knowledge cutoff ene 2025, menos refinado que privados	Licencia restrictiva	Modelos grandes (397B) necesitan mucho hardware	V4 aún no disponible

Si necesitas el mejor modelo open para razonamiento complejo sin importar hardware: Qwen 3.5 397B o DeepSeek ganan. Son más grandes y más potentes en bruto.

Si necesitas el mejor modelo open que quepa en una sola GPU de consumo bajo Apache 2.0: Gemma 4 31B gana. No hay otro modelo de este tamaño con este rendimiento y esta licencia.

Si necesitas máxima velocidad local: Gemma 4 26B MoE. Solo activa 3.8B parámetros, genera a 300 tok/s en hardware potente, con rendimiento cercano al 31B.

Cómo ejecutar Gemma 4 en local paso a paso

Gemma 4 se ejecuta localmente con varias herramientas. La más sencilla es Ollama:

Con Ollama (lo más rápido)

Instala Ollama: curl -fsSL https://ollama.com/install.sh | sh (Linux/Mac) o descarga desde ollama.com (Windows).
Descarga y ejecuta el modelo: ollama run gemma4:31b (para el 31B) o ollama run gemma4:26b (para el MoE).
Empieza a chatear directamente en la terminal.

Con LM Studio (interfaz gráfica)

Descarga LM Studio desde lmstudio.ai.
Busca "Gemma 4" en el buscador de modelos.
Descarga la versión cuantizada Q4_K_M (16.8 GB para 26B, 19.6 GB para 31B).
Carga el modelo y empieza a usarlo con interfaz visual.

Requisitos de hardware reales

Modelo	Archivo Q4_K_M	VRAM recomendada	GPU ejemplo
26B MoE (cuantizado)	~16.8 GB	16-18 GB	RTX 3090, RTX 4090, RTX 4080
31B Dense (cuantizado)	~19.6 GB	17-20 GB	RTX 3090 Ti, RTX 4090
31B Dense (bf16 sin cuantizar)	~62 GB	80 GB	NVIDIA H100, A100
E4B (edge)	~2-4 GB	4-8 GB	Portátil con GPU integrada, Mac M1+

Si tu GPU no tiene suficiente VRAM, el modelo descarga capas a la RAM del sistema. Funciona, pero mucho más lento. Para una experiencia fluida, el modelo debe caber entero en VRAM.

Qué puede hacer Gemma 4 en la práctica (código, razonamiento, multimodal)

Código: Gemma 4 31B logra un 80% en LiveCodeBench v6 (coding competitivo). En la práctica, genera componentes frontend completos, resuelve bugs de lógica, y puede servir como copiloto de código local que no depende de internet. El 26B MoE es especialmente bueno para esto por su velocidad. No sustituye a Claude Code o Cursor para proyectos grandes, pero para trabajo offline y prototipado rápido es excelente.

Razonamiento y matemáticas: el salto de 20.8% a 89.2% en AIME 2026 es real. Gemma 4 puede resolver problemas de matemáticas y lógica a nivel avanzado usando su modo de "pensamiento" (genera hasta 4.000+ tokens de razonamiento antes de dar la respuesta). Es competitivo con modelos mucho más grandes en tareas que requieren razonamiento paso a paso.

Agentes y uso de herramientas: soporte nativo para function calling, output JSON estructurado e instrucciones de sistema. El salto de 6.6% a 86.4% en t2-bench indica que Gemma 4 puede usarse para construir agentes autónomos fiables. Puede llamar a APIs, consultar bases de datos y encadenar acciones de forma predecible.

Multimodal: todos los modelos entienden imágenes y vídeo (hasta 60 segundos a 1fps en los modelos grandes). Los modelos edge (E2B, E4B) también procesan audio, lo que permite aplicaciones de reconocimiento de voz completamente offline en móviles.

Idiomas: entrenado en más de 140 idiomas de forma nativa. No es una traducción sobre un modelo en inglés: el entrenamiento multilingüe es parte del modelo base.

Apache 2.0: por qué la licencia de Gemma 4 cambia las reglas

Las versiones anteriores de Gemma tenían licencias propias de Google con restricciones: límites de usuarios activos mensuales, cláusulas de no competencia y restricciones de redistribución. Gemma 4 rompe con eso.

Apache 2.0 significa:

Uso comercial sin restricciones de ingresos ni de usuarios.
Puedes modificar el modelo, hacer fine-tuning y distribuir las versiones modificadas.
No hay cláusulas de no competencia.
No necesitas reportar nada a Google.

Esto pone a Gemma 4 al mismo nivel legal que Qwen (Alibaba) y Mistral, y por delante de Llama (Meta), que mantiene una licencia custom que prohíbe el uso a empresas con más de 700 millones de usuarios activos mensuales.

Para startups, empresas y desarrolladores independientes, Apache 2.0 elimina la incertidumbre legal que frenaba la adopción de Gemma en producción.

Dónde Gemma 4 sigue perdiendo frente a modelos privados

Gemma 4 ha reducido enormemente la distancia con los modelos privados (Claude, GPT-5, Gemini 3), pero no la ha eliminado. Las diferencias que quedan:

Consistencia en tareas largas. En conversaciones extensas o razonamiento de muchos pasos, los modelos privados mantienen mejor la coherencia. Gemma 4 puede perder el hilo en secuencias muy largas.

Razonamiento complejo de élite. Los modelos más grandes como GLM-5 (Reasoning), Qwen 3.5 397B y DeepSeek V3.2-Speciale (que ganó medallas de oro en IMO, IOI e ICPC 2026) están por encima de Gemma 4 en matemáticas de competición y razonamiento multi-paso extremo.

Ecosistema y herramientas. Claude tiene Claude Code, ChatGPT tiene Codex y Agent Mode, Gemini tiene Code Assist y Antigravity. Gemma 4 es un modelo: no viene con herramientas propias integradas. Necesitas conectarlo tú a Ollama, LM Studio, vLLM u otras herramientas de terceros.

Alineación y refinamiento. Los modelos privados tienen meses de RLHF y ajuste fino que los hacen más predecibles y seguros. Gemma 4 es más "crudo" en sus respuestas, lo que es tanto una ventaja (menos censura) como una desventaja (menos refinamiento).

Knowledge cutoff. El entrenamiento de Gemma 4 tiene un corte de conocimiento de enero de 2025. No sabe nada posterior a esa fecha salvo que lo conectes a herramientas externas (búsqueda web, APIs).

Merece la pena usar Gemma 4 en 2026

Si buscas el mejor modelo open source que puedas ejecutar en una sola GPU de consumo, con licencia Apache 2.0 y capacidades multimodales: sí, Gemma 4 es la respuesta más clara que existe ahora mismo.

Si necesitas máxima calidad absoluta y tienes presupuesto para modelos privados (Claude, GPT-5, Gemini): los privados siguen por delante, especialmente en consistencia, herramientas integradas y tareas de razonamiento extremo.

La posición real de Gemma 4 en el mercado: es el modelo que hace viable ejecutar IA de nivel serio en tu propio hardware, sin pagar suscripciones mensuales, sin enviar tus datos a servidores de terceros, y sin restricciones legales. Para privacidad, soberanía de datos, trabajo offline y costes a largo plazo, eso tiene un valor enorme. Para calidad máxima en producción, los modelos privados siguen justificando su precio.

La brecha se sigue cerrando. Y con Gemma 4, se ha cerrado más que nunca.

Gemma 4: qué es, benchmarks reales y cómo ejecutarlo en tu hardware (2026)

Qué es Gemma 4 y por qué importa

Los 4 tamaños de Gemma 4 y para qué hardware sirve cada uno

Benchmarks de Gemma 4: los números que importan (y los que necesitan contexto)

Gemma 4 vs Llama 4 vs Qwen 3.5 vs DeepSeek: comparativa de modelos open source