MiniMax Hailuo: Guía completa de todos los modelos de vídeo IA con precios reales de API (2024–2025)

Si trabajas con generación de vídeo por IA en 2025 o 2026, es muy probable que hayas oído hablar de Hailuo AI, el servicio de vídeo generativo de la empresa china MiniMax. En pocos meses pasó de ser un experimento viral en redes sociales a convertirse en una de las APIs más utilizadas por desarrolladores y creadores de contenido de todo el mundo, gracias a una combinación difícil de superar: calidad cinematográfica a precios muy competitivos.

En este artículo hacemos una guía técnica y divulgativa completa: qué es MiniMax como empresa, cuándo salió cada modelo, qué capacidades tiene cada uno, qué resoluciones y duraciones soporta, cuánto cuesta realmente por API (con datos de pruebas reales), y cuándo conviene usar cada modelo. También comparamos Hailuo con sus principales competidores en el apartado de audio nativo, que es actualmente su talón de Aquiles.

¿Qué es MiniMax y quién hay detrás de Hailuo?

MiniMax Group Inc. (en chino: 稀宇科技, Xīyǔ Kējì) es una empresa de inteligencia artificial con sede en Shanghái, China. Fue fundada en diciembre de 2021 por varios investigadores de visión por computador procedentes de SenseTime — una de las empresas de reconocimiento facial y IA más grandes del mundo — liderados por Yan Junjie (CEO), Yang Bin y Zhou Yucong.

MiniMax no es solo la empresa detrás de los vídeos. Es un laboratorio de IA multimodal con ambición global que desarrolla modelos de lenguaje (MiniMax-M1, M2, M2.5), voz (Speech 2.6), música (Music 2.5) e imagen además del vídeo. Su producto de vídeo se llama Hailuo AI y es la cara más conocida de la compañía fuera de China.

Financiación e inversores destacados

En marzo de 2024, Alibaba Group lideró una ronda de financiación de 600 millones de dólares que valoró MiniMax en 2.500 millones de dólares. Tencent también participó en rondas anteriores. Otros inversores incluyen MiHoYo (los creadores de Genshin Impact), Hillhouse Investment, HongShan e IDG Capital. Con el 70% de su facturación procedente del mercado internacional, la compañía buscó capital en Hong Kong.

El 9 de enero de 2026, MiniMax celebró su salida a bolsa en la Bolsa de Hong Kong bajo el código 0100. El debut fue espectacular: las acciones subieron un 109% el primer día, cerrando a HK$345 frente al precio de oferta de HK$165. La compañía recaudó aproximadamente 620 millones de dólares, convirtiéndose en la segunda gran empresa china de LLMs en cotizar públicamente.

Dato importante para desarrolladores europeos: MiniMax es una empresa china sujeta a la legislación de la República Popular China, incluyendo su ley de datos y ciberseguridad. Esto es relevante si manejas contenido sensible o datos personales de usuarios europeos bajo GDPR. Para casos donde la soberanía del dato sea crítica, considera alternativas europeas como Mistral o soluciones autoalojadas basadas en Flux.

La familia de modelos Hailuo: cronología completa

MiniMax no sigue una estrategia de "el modelo nuevo reemplaza al viejo". Al contrario, mantiene modelos especializados conviviendo activamente porque cada uno tiene un nicho concreto. Aquí está la cronología completa desde el lanzamiento hasta hoy:

Modelo	Fecha lanzamiento	Modos	Resolución	Duración	Estado
T2V-01 (Video-01)	Septiembre 2024	T2V, I2V	720p	6s	Legacy
I2V-01	Septiembre/Octubre 2024	I2V	720p	6s	Legacy
S2V-01 (Subject Reference)	Noviembre/Diciembre 2024	Foto de rostro → Vídeo	720p	6s	Activo y único
I2V-01-Live	3 Diciembre 2024	I2V (2D/anime)	720p	6s	Activo y único
T2V-01-Director	3 Marzo 2025	T2V con control de cámara	720p	6s	Activo (nicho cámara)
I2V-01-Director	3 Marzo 2025	I2V con control de cámara	720p	6s	Activo (nicho cámara)
Hailuo 02 (2.0)	~Junio 2025	T2V, I2V, First+Last Frame	768p / 1080p	6s / 10s	Activo (único con First+Last Frame)
Hailuo 2.3	Octubre 2025	T2V, I2V	768p / 1080p	6s / 10s	Modelo principal actual
Hailuo 2.3 Fast	Octubre 2025	Solo I2V	768p / 1080p	6s / 10s	Activo (batch/producción)

Todos los modelos usan 24-25 fps. Los modelos legacy (T2V-01, I2V-01) siguen disponibles en la API oficial pero no reciben actualizaciones.

Descripción detallada de cada modelo

T2V-01 e I2V-01 — Los originales (Septiembre 2024)

Los modelos con los que MiniMax irrumpió en el mercado en septiembre de 2024. T2V-01 genera vídeo desde texto; I2V-01 anima una imagen de entrada. Ambos operan a 720p y 6 segundos. Hoy están técnicamente superados por la familia 2.x en calidad, pero siguen disponibles en la API porque son algo más económicos para casos de uso simples.

Cuándo usarlos hoy: Solo si el presupuesto es extremadamente ajustado y la calidad no es crítica. En cualquier otro caso, Hailuo 2.3 Fast ofrece mejor resultado al mismo precio o incluso inferior.

S2V-01 — Subject Reference / Consistencia de personaje (Dic 2024)

Este es uno de los modelos más innovadores de toda la familia y no tiene equivalente directo en otros proveedores. S2V-01 toma una sola foto de un rostro humano y genera un vídeo completamente nuevo donde ese personaje aparece en la escena descrita en el prompt. La persona de la foto nunca estuvo en esa escena: el modelo extrae su identidad facial y la "inyecta" en vídeo generado desde cero.

Es radicalmente diferente a I2V (que anima la imagen original tal cual). Con S2V-01 puedes escribir "un hombre camina bajo la lluvia en Tokio de noche" y el modelo genera ese vídeo con el rostro de la persona de tu foto de referencia, aunque en la foto aparezca sentado en una silla de oficina con fondo blanco.

Limitación importante: Solo funciona con rostros humanos. No es apto para consistencia de objetos, animales o marcas. Acepta solo una imagen de referencia, y la calidad de consistencia mejora si la foto es frontal, bien iluminada y el rostro ocupa buena parte del encuadre.

Cuándo usarlo: Series de vídeo con el mismo presentador o personaje, anuncios con un actor consistente, contenido educativo con un narrador visual recurrente.

I2V-01-Live — Animación de ilustraciones 2D (3 Dic 2024)

Modelo especializado en animar ilustraciones, arte digital, manga y personajes de estilo anime. Mientras los otros modelos I2V están optimizados para fotografías realistas, I2V-01-Live está específicamente entrenado para estilos artísticos planos o estilizados. Produce movimiento suave, estable y expresivo en personajes de dibujo, evitando el efecto "uncanny valley" que aparece cuando intentas animar este tipo de imágenes con modelos fotorrealistas.

Cuándo usarlo: Animación de personajes de cómic, manga o ilustración digital. Contenido para plataformas como Webtoon, animaciones para redes sociales con estética anime, vídeos para juegos o apps con arte estilizado.

T2V-01-Director e I2V-01-Director — Control cinematográfico (3 Mar 2025)

Los modelos Director fueron lanzados el 3 de marzo de 2025 e introdujeron control explícito de movimientos de cámara mediante comandos de texto en el prompt. Aunque los modelos 2.x también soportan estos comandos, los modelos Director tienen menor aleatoriedad de movimiento y mayor adherencia a las instrucciones de cámara gracias a un fine-tuning específico para control cinematográfico.

Los comandos de cámara se insertan con corchetes directamente en el prompt y se pueden combinar hasta 3 simultáneos:

[Truck left] / [Truck right] — traslación lateral física de la cámara
[Pan left] / [Pan right] — giro horizontal sobre el eje
[Push in] / [Pull out] — avance o retroceso físico
[Pedestal up] / [Pedestal down] — movimiento vertical
[Tilt up] / [Tilt down] — inclinación de la cámara
[Zoom in] / [Zoom out] — zoom óptico sin mover la cámara
[Shake] — temblor tipo handheld
[Tracking shot] — seguimiento del sujeto
[Static shot] — cámara completamente fija

Ejemplo de combinación: [Pan left, Pedestal up, Zoom in]

Cuándo usarlos: Cuando necesitas precisión cinematográfica en el movimiento de cámara y los modelos 2.x dan resultados demasiado aleatorios. Especialmente útiles para recrear planos concretos (contrapicado, travelling lateral, dolly zoom).

Hailuo 02 (2.0) — El salto arquitectónico (Junio 2025)

Hailuo 02 representó el cambio más importante de la historia de la plataforma. MiniMax desarrolló una nueva arquitectura propia llamada NCR (Noise-aware Compute Redistribution) que redistribuye los recursos computacionales según los niveles de ruido del proceso de difusión. El resultado: 2,5x de mejora en eficiencia de entrenamiento e inferencia, lo que permitió escalar el modelo a 3x más parámetros y entrenar con 4x más datos.

Los hitos de este modelo son tres: 1080p nativo real (no upscaling), dominio de física extrema (fue el único modelo del mundo capaz de renderizar gimnasia artística de forma convincente en el momento de su lanzamiento), y el modo First & Last Frame (único en toda la familia Hailuo).

First & Last Frame permite definir el fotograma inicial y el fotograma final del vídeo. El modelo genera la transición entre ambos siguiendo el prompt. Esto es extraordinariamente útil para guiar el resultado de forma precisa: puedes controlar exactamente cómo empieza y cómo termina el clip.

Cuándo usarlo: Cuando necesitas First & Last Frame (es el único modelo que lo soporta en toda la familia). También para escenas con física compleja donde la 2.3 no rinde mejor.

Hailuo 2.3 y 2.3 Fast — El estándar actual (Octubre 2025)

Hailuo 2.3 es la evolución incremental sobre 2.0, manteniendo el mismo precio pero mejorando micro-expresiones faciales, movimiento corporal complejo, y añadiendo soporte nativo para estilos artísticos (anime, ilustración, ink-wash, CG de videojuegos). Es el modelo general recomendado para la mayoría de casos de uso en producción.

La variante Fast solo acepta I2V (no T2V), pero reduce el coste hasta un 50% y genera aproximadamente 2,5x más rápido. Ideal para iteración en batch, previsualizaciones y pipelines de producción de alto volumen.

Diferencia clave respecto a 2.0: Hailuo 2.3 no soporta First & Last Frame. Si necesitas esa función, debes usar Hailuo 02.

Resoluciones: ¿qué significa realmente "768p"?

Uno de los puntos de confusión más habituales es que "768p" no implica un vídeo cuadrado. Al igual que "1080p" significa 1920×1080 (16:9), "768p" es la medida del eje vertical. La resolución real depende del aspecto del contenido generado:

Resolución API	Aspect ratio	Píxeles reales	Uso típico
768p	16:9	1360 × 768	YouTube, cine, horizontal
768p	9:16	432 × 768	TikTok, Reels, Stories
768p	1:1	768 × 768	Cuadrado (default T2V sin imagen)
1080p	16:9	1920 × 1080	Full HD, producción profesional
1080p	9:16	608 × 1080	Vertical Full HD

Dato práctico importante: La API de MiniMax no tiene parámetro aspect_ratio. En modo I2V, el aspect ratio del vídeo generado lo determina la imagen de entrada — si subes una imagen 16:9, el vídeo será 16:9. En modo T2V puro sin imagen de referencia, el modelo puede generar en 1:1 por defecto (como hemos comprobado en pruebas reales). Para garantizar 16:9 en T2V, la solución más fiable es pasar una imagen de referencia en el ratio deseado mediante el parámetro first_frame_image.

Precios reales de API — Datos obtenidos en pruebas

A diferencia de muchas guías que reproducen precios de documentación que pueden estar desactualizados, los siguientes datos son resultados de pruebas reales realizadas directamente contra la API oficial de MiniMax. Los costes se midieron observando el saldo de créditos antes y después de cada generación en la cuenta de la plataforma:

Modelo	Modo	Resolución	Duración	Saldo antes	Saldo después	Coste real	Tiempo gen.
Hailuo 2.0 (T2V)	Texto → Vídeo	768p	10s	$19,76	$19,20	$0,56	~5-6 min
T2V-01-Director	Texto → Vídeo	720p	5s	$19,20	$18,77	$0,43	~4 min
I2V-01	Imagen → Vídeo	720p	5s	$18,77	$18,34	$0,43	~5 min
S2V-01 Character	Foto rostro → Vídeo	720p	5s	$18,34	$17,69	$0,65	~4 min
Hailuo 2.0 (First+Last)	Primer+Último frame	768p	10s	$17,69	$17,13	$0,56	~5-6 min

Precios en USD. Pruebas realizadas directamente contra la API oficial de MiniMax (platform.minimax.io). Los precios pueden variar según el plan contratado y la región.

Observaciones de los tests:

Hailuo 2.0 T2V y First+Last Frame tienen exactamente el mismo coste ($0,56). El modo First+Last Frame no tiene sobrecargo.
T2V-01-Director e I2V-01 cuestan igual ($0,43). El modo Director no añade coste extra.
S2V-01 es el más caro por segundo ($0,130/s), lo que tiene sentido: realiza extracción de identidad facial además de la generación.
Los tiempos de generación de ~4-6 minutos hacen que los webhooks con callback_url sean esenciales para un pipeline en producción. El polling activo consume recursos innecesariamente.

Tabla maestra: capacidades por modelo

Modelo	T2V	I2V	First+Last	S2V	Control cámara	Anime/2D	1080p	10s
T2V-01	✅	✅	❌	❌	Básico	❌	❌	❌
I2V-01	❌	✅	❌	❌	Básico	❌	❌	❌
S2V-01	❌	❌	❌	✅	Via prompt	❌	❌	❌
I2V-01-Live	❌	✅	❌	❌	Básico	✅	❌	❌
T2V-01-Director	✅	❌	❌	❌	✅ Alta precisión	❌	❌	❌
I2V-01-Director	❌	✅	❌	❌	✅ Alta precisión	❌	❌	❌
Hailuo 02	✅	✅	✅	❌	✅ 15 comandos	Parcial	✅	✅
Hailuo 2.3	✅	✅	❌	❌	✅ 15 comandos	✅	✅	✅
Hailuo 2.3 Fast	❌	✅	❌	❌	✅ 15 comandos	✅	✅	✅

¿Cuándo usar cada modelo? Guía rápida de decisión

Quiero generar vídeo desde texto (T2V) con la mejor calidad posible:
→ Hailuo 2.3

Quiero animar una imagen mía o de producto:
→ Hailuo 2.3 (calidad) o Hailuo 2.3 Fast (velocidad/precio)

Quiero definir exactamente el primer y último fotograma del vídeo:
→ Hailuo 02 (único modelo con First & Last Frame)

Quiero mantener el mismo personaje/actor en múltiples clips:
→ S2V-01 con una foto de referencia del rostro

Quiero animar un personaje de anime, manga o ilustración 2D:
→ I2V-01-Live

Necesito control cinematográfico preciso de la cámara (travelling, dolly, etc.):
→ T2V-01-Director o I2V-01-Director para mayor precisión, o Hailuo 2.3 con comandos de cámara para mayor calidad visual

Produzco vídeos en batch / necesito el menor coste posible:
→ Hailuo 2.3 Fast (hasta 50% más barato, solo I2V)

Trabajas con ilustraciones de personajes para series de contenido consistente:
→ Combina S2V-01 (consistencia de rostro) + Hailuo 2.3 (calidad general)

La gran limitación: audio nativo

Hailuo tiene un talón de Aquiles claro frente a sus principales competidores: ninguno de sus modelos de vídeo genera audio nativo integrado. Los vídeos que produces con cualquier modelo Hailuo son mudos.

Esto contrasta con la dirección que está tomando el sector:

Veo 3 (Google): Audio nativo sincronizado, incluyendo efectos de sonido, diálogo y música. Precio elevado (~$4/clip).
Kling 2.6 (Kuaishou): Audio nativo desde la versión 2.6. Genera vídeo y sonido en un único pase.
Seedance 1.5 Pro (ByteDance): Audio nativo multi-shot. Precio más competitivo que Veo (~$0,99 por clip de 5s con audio).

La estrategia de MiniMax es diferente: mantiene el audio como una capa separada mediante sus propios modelos especializados Speech 2.6 (texto a voz, clonación de voz, más de 40 idiomas) y Music 2.5 (generación musical con letras y arreglos). Esto te da más control granular sobre el audio, pero requiere un pipeline de composición extra.

Pipeline recomendado para vídeo con audio usando solo MiniMax API:

Generar clips de vídeo con Hailuo 2.3 o S2V-01
Generar locución con Speech 2.6 API (soporta clonación de voz)
Generar música de fondo con Music 2.5 API
Componer vídeo + voz + música con FFmpeg

No hay ningún anuncio oficial de MiniMax sobre integración de audio nativo en los modelos de vídeo Hailuo a fecha de publicación de este artículo (febrero 2026). La compañía sigue apostando por modelos especializados en lugar de multimodalidad integrada para el vídeo.

Arquitectura de la API: cómo funciona

Para desarrolladores que quieran integrar Hailuo en sus aplicaciones, la API de MiniMax funciona de forma asíncrona en tres pasos:

Crear tarea: POST /v1/video_generation → recibe task_id
Consultar estado: GET /v1/query/video_generation?task_id=xxx → estados: Preparing → Queueing → Processing → Success/Fail
Descargar vídeo: GET /v1/files/retrieve?file_id=xxx → URL de descarga válida durante 1 hora

⚠️ Crítico: La URL de descarga del vídeo caduca en 1 hora. Es imprescindible implementar un job que descargue el archivo a tu propio almacenamiento (S3, Cloudflare R2, Hetzner Object Storage...) inmediatamente tras recibir el webhook de éxito. Si no lo haces y el usuario intenta acceder al vídeo después de esa hora, obtendrá un error 403.

Parámetros clave del endpoint de creación:

model: nombre del modelo (ej: "MiniMax-Hailuo-2.3")
prompt: hasta 2000 caracteres. Los comandos de cámara se insertan con corchetes: [Pan left]
resolution: "768P" o "1080P"
duration: 6 o 10 (10s no disponible en 1080p)
first_frame_image: URL o base64 de imagen para I2V
last_frame_image: solo para Hailuo 02 en modo First+Last Frame
subject_reference: array con type: "character" e imagen para S2V-01
prompt_optimizer: true por defecto (el modelo optimiza el prompt automáticamente)
callback_url: webhook para notificación asíncrona cuando el vídeo está listo

Contexto competitivo: Hailuo frente a la competencia

Modelo	Empresa	Audio nativo	API pública	Soberanía dato
Hailuo 2.3 Fast	MiniMax (China)	❌	✅	⚠️ China
Hailuo 2.3	MiniMax (China)	❌	✅	⚠️ China
Seedance 1.5 Pro	ByteDance (China)	✅	✅ BytePlus	⚠️ China
Kling 2.1/2.6 Pro	Kuaishou (China)	✅ (2.6+)	⚠️ Limitada	⚠️ China
Runway Gen-4	Runway (EEUU)	❌	✅	✅ EEUU
Veo 3	Google (EEUU)	✅	Enterprise	✅ EEUU

La comparativa de precios entre competidores es compleja porque depende del plan, la región y si el audio está incluido o no. Publicaremos un análisis de precios comparativo específico en un próximo artículo con datos verificados de cada plataforma.

Conclusiones para desarrolladores y creadores

MiniMax Hailuo es hoy la API de generación de vídeo con mejor relación calidad-precio del mercado para vídeo sin audio. Sus modelos se han especializado en nichos concretos que conviven sin reemplazarse entre sí, lo que requiere entender bien el ecosistema para elegir el modelo adecuado para cada caso de uso.

La hoja de ruta es clara: MiniMax seguirá iterando sobre Hailuo a ritmo acelerado, respaldado ahora por el capital del IPO de Hong Kong. La integración de audio nativo en el vídeo no está anunciada, pero la presión competitiva de ByteDance, Google y Kuaishou hace que sea solo cuestión de tiempo.

Para equipos que trabajan en Europa y necesitan cumplir GDPR estrictamente, la naturaleza china de todos los proveedores líderes (MiniMax, ByteDance, Kuaishou) es un factor a tener en cuenta. Mientras no existan alternativas europeas competitivas en generación de vídeo, la evaluación riesgo-beneficio deberá hacerse caso por caso según la sensibilidad de los datos procesados.

Artículo publicado en ScreenAI.es — Inteligencia artificial aplicada al cine, la televisión y los medios digitales.
Datos de precios obtenidos de pruebas reales contra la API oficial de MiniMax (platform.minimax.io). Última actualización: febrero 2026.

MiniMax Hailuo: Guía completa de todos los modelos de vídeo IA con precios reales de API (2024–2025)

¿Qué es MiniMax y quién hay detrás de Hailuo?

Financiación e inversores destacados

La familia de modelos Hailuo: cronología completa

Descripción detallada de cada modelo

T2V-01 e I2V-01 — Los originales (Septiembre 2024)

S2V-01 — Subject Reference / Consistencia de personaje (Dic 2024)

I2V-01-Live — Animación de ilustraciones 2D (3 Dic 2024)

T2V-01-Director e I2V-01-Director — Control cinematográfico (3 Mar 2025)

Hailuo 02 (2.0) — El salto arquitectónico (Junio 2025)

Hailuo 2.3 y 2.3 Fast — El estándar actual (Octubre 2025)

Resoluciones: ¿qué significa realmente "768p"?

Precios reales de API — Datos obtenidos en pruebas

Tabla maestra: capacidades por modelo

¿Cuándo usar cada modelo? Guía rápida de decisión

La gran limitación: audio nativo

Arquitectura de la API: cómo funciona

Contexto competitivo: Hailuo frente a la competencia

Conclusiones para desarrolladores y creadores

Comentarios (0)

Dejar un Comentario

MiniMax Hailuo: Guía completa de todos los modelos de vídeo IA con precios reales de API (2024–2025)

¿Qué es MiniMax y quién hay detrás de Hailuo?

Financiación e inversores destacados

La familia de modelos Hailuo: cronología completa

Descripción detallada de cada modelo

T2V-01 e I2V-01 — Los originales (Septiembre 2024)

S2V-01 — Subject Reference / Consistencia de personaje (Dic 2024)

I2V-01-Live — Animación de ilustraciones 2D (3 Dic 2024)

T2V-01-Director e I2V-01-Director — Control cinematográfico (3 Mar 2025)

Hailuo 02 (2.0) — El salto arquitectónico (Junio 2025)

Hailuo 2.3 y 2.3 Fast — El estándar actual (Octubre 2025)

Resoluciones: ¿qué significa realmente "768p"?

Precios reales de API — Datos obtenidos en pruebas

Tabla maestra: capacidades por modelo

¿Cuándo usar cada modelo? Guía rápida de decisión

La gran limitación: audio nativo

Arquitectura de la API: cómo funciona

Contexto competitivo: Hailuo frente a la competencia

Conclusiones para desarrolladores y creadores

Comentarios (0)

Dejar un Comentario

Usamos cookies

Gestionar preferencias de cookies

Cookies estrictamente necesarias

Cookies de analítica