MemPalace AI: análisis técnico y la polémica de los benchmarks falsos

MemPalace es un sistema de memoria AI open source que almacena conversaciones de forma íntegra y las recupera mediante búsqueda semántica. Lo crearon la actriz Milla Jovovich y el CEO de Bitcoin Libre, Ben Sigman, usando Claude Code. Se lanzó el 6 de abril de 2026 y en 48 horas acumuló 23.000 estrellas en GitHub. Hoy supera las 42.000. El proyecto afirmó tener la puntuación más alta jamás registrada en el benchmark LongMemEval. La comunidad técnica lo investigó a fondo. Lo que encontró es más interesante que el titular.

Resumen rápido:

Sí, Milla Jovovich está realmente detrás del proyecto. No es un homenaje ni alguien usando su nombre.

Sí, el código funciona. Son 11.139 líneas de Python real con tests.

No, los benchmarks no son lo que parecían. El 100% original se redujo a 96.6%, y ese 96.6% es esencialmente la puntuación de ChromaDB, no de MemPalace.

Sí, apareció un token cripto vinculado al proyecto en las primeras 24 horas.

La arquitectura tiene mérito real. El marketing la ha dañado.

Qué es MemPalace y qué problema intenta resolver

Los modelos de IA actuales — ChatGPT, Claude, Gemini — tienen un problema estructural: no recuerdan. Cada vez que inicias una nueva sesión, el modelo parte de cero. Meses de conversaciones, decisiones, contexto de proyectos, razonamiento acumulado: todo desaparece. Las funciones de “memoria” que ofrecen OpenAI, Anthropic y Google son parches superficiales que almacenan resúmenes breves, no el historial completo.

Existen herramientas de terceros que intentan resolver esto — Mem0 (de 19 a 249 $/mes), Zep (desde 25 $/mes), Letta/MemGPT — pero todas comparten un enfoque común: usan un LLM para decidir qué merece ser recordado y qué no. El problema es que ese proceso de filtrado es lossy: descarta razonamiento, alternativas consideradas, contexto de decisiones. Exactamente lo que un usuario avanzado necesita recuperar después.

MemPalace propone lo contrario: guardar absolutamente todo sin resumir, sin filtrar, sin dejar que la IA decida qué es importante. Almacena conversaciones completas como texto verbatim y confía en la búsqueda semántica para encontrar lo relevante cuando se necesita. Es un enfoque radical que tiene ventajas reales y limitaciones serias.

El repositorio está en github.com/milla-jovovich/mempalace, bajo licencia MIT, y funciona completamente en local usando ChromaDB y SQLite. Cero coste de APIs, cero datos enviados a la nube.

Milla Jovovich: ¿programadora, arquitecta o cara visible?

Esta es la primera pregunta que se hizo la comunidad técnica cuando el repositorio apareció en la cuenta personal de GitHub de la actriz de Resident Evil y El Quinto Elemento. La respuesta corta: Jovovich está realmente involucrada, pero no como programadora en el sentido tradicional.

Según la cronología verificable, Jovovich comenzó a usar IA intensivamente a finales de 2025 mientras trabajaba en un proyecto de videojuegos. Acumuló miles de conversaciones con ChatGPT y Claude, y se frustró al descubrir que cada nueva sesión perdía todo el contexto anterior. Probó herramientas existentes como Mem0 y Zep, pero no le convencieron porque dejaban que la IA decidiera qué recordar. Entonces contactó con Ben Sigman, CEO de Bitcoin Libre (una plataforma de préstamos cripto), y pasaron meses construyendo MemPalace con Claude Code.

Jovovich lo explicó en un vídeo de Instagram que acumuló más de 31.000 reacciones: “Quería que mi IA recordara como yo recuerdo: no solo las conclusiones, sino el camino. Las alternativas que consideré, las razones por las que cambié de opinión, los matices.”

Pero la comunidad de desarrolladores rápidamente señaló un dato incómodo: en el momento del lanzamiento, la cuenta de GitHub de Jovovich solo tenía 7 commits en 2 días. Usuarios de X (Twitter) crearon community notes indicando que su participación parecía “conceptual o promocional”. También apareció una cuenta eliminada llamada “aya-thekeeper” que originalmente subió el repositorio, lo que generó más preguntas sobre quién realmente escribió el código.

Jovovich respondió a las acusaciones directamente. Explicó que “Lu” (o “Lu_code”) no es un programador humano contratado por Sigman, sino su agente de IA personal. “Lu es mi agente de IA, así que los comentarios de y hacia Ben son de mí/Lu”, aclaró. Se definió como la arquitecta del proyecto — la persona que diseñó cómo debería funcionar la memoria — mientras que Sigman es el ingeniero que lo implementó.

Nuestro análisis: La participación de Jovovich es real pero fundamentalmente conceptual y de dirección de producto. No es programadora. Usa agentes de IA (Claude Code) para traducir sus ideas a código, lo cual es legítimo y cada vez más común, pero la narrativa de “actriz programa sistema de IA” es una simplificación que benefició al marketing viral del proyecto.

Arquitectura técnica: cómo funciona realmente MemPalace

La idea central está inspirada en la técnica mnemónica del “palacio de la memoria” (method of loci), una estrategia de memorización que data de la antigua Grecia. Consiste en asociar información con ubicaciones específicas dentro de un edificio imaginario. MemPalace aplica este principio a la memoria de la IA.

Almacenamiento verbatim

A diferencia de Mem0, Zep o la memoria nativa de ChatGPT, MemPalace no resume ni filtra. Guarda las conversaciones completas tal cual. Esto evita la pérdida de contexto que ocurre cuando un LLM decide qué es “importante”, pero tiene un coste: más almacenamiento y más ruido potencial en la recuperación.

Estructura jerárquica

La estructura organiza la memoria en niveles: Wings (proyectos o personas), Halls (tipos de memoria), Rooms (temas), Closets (índices) y Drawers (datos originales). La idea es que las búsquedas se puedan acotar a una sección en vez de escanear todo el corpus. Según benchmarks internos del proyecto, la búsqueda acotada a wing + room alcanza un 94.8% frente al 60.9% de la búsqueda global.

Sin embargo — y esto es crítico — una reproducción independiente en un M2 Ultra de Apple encontró que activar las funciones diferenciadoras de MemPalace (wings, rooms, halls) realmente reduce la precisión de recuperación hasta en 12.4 puntos porcentuales frente a ChromaDB plano. Es decir: la estructura de “palacio” que da nombre al proyecto empeora los resultados en algunos escenarios.

Stack técnico

ChromaDB como base vectorial (con embeddings all-MiniLM-L6-v2 por defecto), SQLite para el knowledge graph temporal, integración MCP con 24 herramientas para que agentes de IA consulten la memoria automáticamente, y parsers para importar conversaciones de Claude Code (JSONL), ChatGPT (JSON), Slack y Codex CLI. Estos parsers son posiblemente la contribución más útil del proyecto: hacer que diferentes formatos de conversación se puedan ingerir en un sistema unificado de memoria.

Knowledge graph temporal

Una de las funcionalidades más interesantes es el grafo de conocimiento con ventanas temporales. Cada hecho tiene un valid_from y valid_to, lo que permite consultar “¿qué era cierto en junio de 2025?” y obtener solo los hechos vigentes en esa fecha. Cuando algo cambia (alguien se muda a otra ciudad, un proyecto cambia de nombre), se invalida el hecho anterior y se crea uno nuevo. Esto resuelve el problema de información obsoleta que afecta a la mayoría de sistemas de memoria.

La polémica de los benchmarks: del 100% al 60%

Aquí es donde la historia se pone fea. MemPalace se lanzó afirmando ser “the highest-scoring AI memory system ever benchmarked” con un 100% en LongMemEval. En menos de 72 horas, la comunidad técnica desmontó esa afirmación capa por capa.

Acto 1: el 100% que no era 100%

El equipo ejecutó el benchmark, identificó las tres preguntas que el sistema fallaba, creó correcciones específicas para esas preguntas exactas, y volvió a ejecutar el test. Esto es el equivalente académico de “enseñar para el examen”: overfitting puro. Tras la presión de la comunidad, el equipo redujo la cifra oficial a 96.6% en modo raw.

Acto 2: el 96.6% es de ChromaDB, no de MemPalace

Auditores independientes descubrieron que el benchmark en modo raw no utiliza ninguna lógica específica de MemPalace. No activa la estructura de palacio (wings, rooms, halls). Lo que mide es el rendimiento de ChromaDB con la configuración por defecto y el modelo de embeddings all-MiniLM-L6-v2. Una auditoría publicada en GitHub demostró que se puede replicar el mismo resultado con aproximadamente 50 líneas de Python. El 96.6% es real, pero es la puntuación de ChromaDB, no de MemPalace.

Acto 3: ni siquiera es un score de LongMemEval

El golpe más técnico vino de un desarrollador competidor que abrió un issue detallado en GitHub. LongMemEval es un benchmark end-to-end: el sistema debe recuperar el documento, generar una respuesta, y esa respuesta debe ser evaluada por un juez GPT-4. El runner de MemPalace solo hace el paso 1 (recuperación). Nunca genera respuesta y nunca invoca juez. Lo que reporta es recall@5, no la puntuación estándar del benchmark. Comparar ese número con los scores publicados de otros sistemas en el leaderboard de LongMemEval es un error de categoría métrica.

Los números reales

Un auditor independiente ejecutó pruebas manuales end-to-end, es decir, hizo preguntas reales a un LLM conectado a MemPalace y evaluó si las respuestas eran correctas. Resultado: aproximadamente un 17% de respuestas correctas. Otro auditor obtuvo cifras más generosas: 60.3% sin reranking y 88.9% con recuperación híbrida sin LLM. La realidad está en algún punto de ese rango, dependiendo de la configuración y el tipo de preguntas.

Lo que no es: MemPalace no es un fraude total. El código funciona, son 11.139 líneas de Python con tests que cubren el 80% del código en 3 sistemas operativos. La arquitectura tiene ideas interesantes. Lo que es: un wrapper bien hecho de ChromaDB con marketing muy agresivo que presentó puntuaciones no comparables como si fueran líderes del sector.

La conexión cripto y el token pump-and-dump

La polémica de los benchmarks podría haberse quedado en un debate técnico. Pero hay un contexto que cambia la narrativa: Ben Sigman, co-creador de MemPalace, es CEO de Bitcoin Libre, una plataforma de préstamos cripto.

Kotaku reportó que un token cripto de MemPalace apareció en pump.fun con una comisión del 50% dividida entre Jovovich y Sigman. El token fue objeto de pump-and-dump en las primeras 24 horas del lanzamiento del proyecto. El patrón — cara famosa + benchmarks inflados + lanzamiento viral + token cripto — es uno que la comunidad reconoce inmediatamente.

También se descubrió una cuenta de GitHub eliminada (“aya-thekeeper”) que fue la que originalmente subió el repositorio, lo que genera preguntas sobre la transparencia del historial de desarrollo. Y Forbes publicó un artículo enteramente acrítico sobre el proyecto sin mencionar la controversia de benchmarks, la cuenta eliminada ni el token cripto.

Todo esto no invalida la tecnología. Pero añade una capa de contexto que cualquier usuario debería conocer antes de adoptar el proyecto.

MemPalace vs Mem0 vs Zep: comparativa real

	MemPalace	Mem0	Zep
Precio	Gratis (MIT)	19-249 $/mes	Desde 25 $/mes
Almacenamiento	Verbatim (todo)	Extracción con LLM	Graph + extracción
Infraestructura	100% local	Cloud (API)	Cloud (Neo4j)
Privacidad	Máxima (nada sale de tu máquina)	Datos en cloud	Datos en cloud
Rendimiento honesto (LongMemEval)	60-89% (según config.)	~85%	~85%
Equipo	Solo developer	Equipo multi-user, SLAs	Enterprise, SLAs
Ideal para	Devs que quieren control total y privacidad	Equipos que necesitan memoria compartida	Producción enterprise con gobernanza

Lo que la tabla no muestra es que las “guerras de benchmarks” en el espacio de memoria AI son universalmente sucias. Zep ha acusado a Mem0 de inflar números, Mem0 respondió lo mismo, y Letta publicó investigación cuestionando a ambos. MemPalace llegó a un espacio donde la credibilidad de los benchmarks ya estaba por los suelos.

Veredicto: para quién tiene sentido MemPalace y para quién no

Tiene sentido si eres un desarrollador que trabaja con LLMs locales, quieres control total sobre tu memoria, valoras la privacidad por encima de todo, y te sientes cómodo manteniendo infraestructura local. El rendimiento híbrido del 88.9% es competitivo con alternativas de pago, y el coste es cero. Los parsers de conversaciones de múltiples plataformas son genuinamente útiles.

No tiene sentido si necesitas memoria compartida entre equipos, requieres SLAs empresariales, no quieres gestionar infraestructura local, o necesitas un sistema probado en producción. MemPalace tiene dos semanas de vida y su comunidad, aunque grande en números de GitHub, aún está evaluando si las estrellas son orgánicas (una auditoría sugiere que una parte significativa podrían ser compradas).

El verdadero debate que MemPalace ha catalizado en comunidades como r/LocalLLaMA y r/aiengineering no es sobre este proyecto específico, sino sobre un problema más profundo: el futuro de la memoria AI no es solo almacenar más datos ni recuperarlos más rápido. Es gobernarlos. Decidir cuándo actualizar, cuándo olvidar, cómo resolver conflictos entre información antigua y nueva. Ningún sistema del mercado — ni MemPalace, ni Mem0, ni Zep — ha resuelto esto todavía.

Recomendación Screen AI: Si te interesa la memoria AI local, prueba MemPalace. Instala, experimenta, mide con tus propios datos. Pero no tomes las cifras del README como verdad absoluta. Y si tu caso de uso requiere producción seria con múltiples usuarios, evalúa Mem0 o Zep antes de comprometerte.

Fuentes: GitHub (milla-jovovich/mempalace, issues #29 y #39), HackerNoon, Cybernews, DEV Community, Decrypt, Vectorize.io, Nicholas Rhodes (Substack), danilchenko.dev, auditoría de roman-rr (GitHub Gist), r/LocalLLaMA, r/ClaudeCode, r/aiengineering. Datos verificados a 15 de abril de 2026.

MemPalace AI: análisis técnico completo, la polémica de los benchmarks y qué hay de verdad detrás del proyecto de Milla Jovovich

Qué es MemPalace y qué problema intenta resolver

Milla Jovovich: ¿programadora, arquitecta o cara visible?