Always On Memory Agent: cómo darle memoria persistente a tu agente de IA sin bases de datos vectoriales

Share

Construir un agente de IA con memoria persistente siempre fue sinónimo de dolor de cabeza: bases de datos vectoriales costosas, dependencias cloud, curvas de aprendizaje empinadas y costos operativos que se justifican difícilmente en etapas tempranas. El Always On Memory Agent, un proyecto open-source lanzado por Shubham Saboo —Product Manager en Google—, propone una alternativa radicalmente más simple: usar SQLite y el propio LLM como sistema de memoria. Sin Pinecone. Sin ChromaDB. Sin embeddings.

El timing no es casualidad. Con el Google Agent Development Kit (ADK) ahora disponible como open-source y el auge de los agentes de código como Cursor, el ecosistema empieza a tomar en serio el problema de la memoria entre sesiones —uno de los bloqueadores más frecuentes para llevar agentes a producción real.

¿Cuál es el problema real que intenta resolver?

Cada vez que inicia una nueva conversación con un agente de IA, el modelo parte desde cero. No sabe que la semana pasada te ayudó a definir la arquitectura de tu producto. No recuerda que prefieres Python sobre JavaScript. No tiene acceso a las decisiones que tomaste en sesiones anteriores.

Aprende IA con nosotros

Únete gratis a mi comunidad en Skool, donde compartimos noticias, tutoriales y recursos para seguir aprendiendo juntos.

👥 Únete gratis 🚀

La solución clásica es una base de datos vectorial: tomas los textos de sesiones pasadas, los conviertes en embeddings (vectores numéricos), los almacenas en Pinecone, ChromaDB o FAISS, y el agente consulta esa base cuando necesita contexto. Funciona. Pero tiene costos reales:

Latencia de indexación: puede superar los 100 ms por operación.
Dependencia cloud: Pinecone y similares son servicios externos con sus propios pricing, downtime y contratos.
Escala de almacenamiento: los embeddings crecen en gigabytes rápidamente.
Complejidad operativa: un equipo de dos personas no debería gestionar una infraestructura vectorial para un MVP.

Cómo funciona el Always On Memory Agent

La propuesta de Saboo es elegante en su simplicidad. El agente está construido sobre el Google ADK y usa Gemini Flash-Lite como modelo de procesamiento. La memoria se almacena en SQLite —una base de datos que literalmente es un archivo en disco, sin servidor, sin configuración—. El LLM hace el trabajo que antes hacía el sistema de embeddings: estructura, consolida y filtra la información por relevancia.

El flujo tiene tres pasos:

Ingesta: el agente captura información de conversaciones y archivos, estructurándola en tablas SQL con metadatos (usuario, tipo de memoria, timestamp).
Consolidación: el LLM procesa periódicamente los registros almacenados, elimina duplicados y prioriza lo relevante.
Consulta: cuando el agente necesita contexto, hace búsquedas SQL filtradas por usuario, tipo de memoria y recencia. El modelo reordena los resultados según relevancia semántica.

El resultado práctico: aproximadamente 5 MB de almacenamiento por cada mil sesiones, frente a los más de 150 MB que requieren soluciones basadas en bases de datos vectoriales. Y funciona completamente offline, sin llamadas a APIs externas para la memoria.

El Google ADK: la infraestructura invisible que lo hace posible

Un componente clave es el Google Agent Development Kit, lanzado en 2025 y ya open-source. El ADK resuelve de forma nativa uno de los problemas más frecuentes en el desarrollo de agentes: la separación entre memoria de corto plazo y memoria de largo plazo.

El ADK ofrece dos interfaces principales:

SessionService: gestiona datos temporales de la conversación en curso, borrados automáticamente al cerrar la sesión.
MemoryService / BaseMemoryService: almacena conocimiento persistente entre sesiones, con métodos estándar para guardar, recuperar y filtrar memorias.

El Always On Memory Agent usa esta separación para decidir qué información es efímera (el contexto de esta conversación) y qué debe persistir (preferencias del usuario, decisiones arquitectónicas, historial de proyectos). Lo mismo que ya hace internamente Agentspace —el producto empresarial de Google para agentes corporativos— ahora está disponible para cualquier desarrollador.

¿Cuándo usar esto y cuándo no?

El proyecto no pretende reemplazar a Pinecone o Milvus en todos los casos. El propio Saboo lo aclara: las bases de datos vectoriales siguen siendo la opción correcta para búsquedas semánticas a escala masiva, millones de usuarios o volúmenes gigantescos de datos no estructurados. La propuesta apunta a un segmento concreto:

Equipos pequeños con recursos limitados de infraestructura.
Productos en etapas tempranas o MVPs donde la simplicidad operativa es prioritaria.
Casos donde la privacidad importa: sin datos en la nube de terceros.
Agentes que necesitan recordar preferencias, historial de decisiones o contexto de sesiones anteriores, pero no escalan a millones de registros.

La comunidad de Reddit en r/AI_Agents ha validado el enfoque con entusiasmo: «SQLite + FTS5 beats vector DBs for most agent memory use cases», resumió un desarrollador en un hilo reciente. El patrón resonó especialmente entre quienes han intentado implementar memoria en agentes con Claude Code o Cursor y prefieren evitar agregar otra dependencia de infraestructura.

Por qué importa

El problema de la memoria en agentes de IA no es técnico en su raíz —es de experiencia de usuario y continuidad. Un agente que no recuerda nada entre sesiones no es un colaborador, es una calculadora muy sofisticada. La diferencia entre un asistente que te conoce y uno que no, es enorme en términos de utilidad real.

El Always On Memory Agent demuestra que no hace falta una arquitectura de datos compleja para resolver esto en el 80% de los casos de uso. SQLite, que tiene décadas de historial en producción y corre en absolutamente cualquier entorno, se convierte aquí en la columna vertebral de un sistema de memoria para agentes —con un LLM actuando como índice inteligente en lugar de vectores.

Para quienes están construyendo agentes con herramientas como las que explora Simon Willison o integrando memoria en flujos de trabajo existentes, este proyecto es una referencia práctica que vale la pena explorar. El repositorio está disponible en GitHub y la arquitectura es lo suficientemente simple como para adaptarse a casos de uso propios en pocas horas.

Fuentes

Rodrigo Rojo http://descubre.ai

Tabla de contenidos [hide]

¿Cuál es el problema real que intenta resolver?
Cómo funciona el Always On Memory Agent
El Google ADK: la infraestructura invisible que lo hace posible
¿Cuándo usar esto y cuándo no?
Por qué importa
Fuentes

Always On Memory Agent: cómo darle memoria persistente a tu agente de IA sin bases de datos vectoriales

¿Cuál es el problema real que intenta resolver?

Cómo funciona el Always On Memory Agent

El Google ADK: la infraestructura invisible que lo hace posible

¿Cuándo usar esto y cuándo no?

Por qué importa

Fuentes

Tabla de contenidos [hide]

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial

Google despliega su inteligencia personal en Chrome y Search

Google blinda la cadena de suministro de IA con nuevas herramientas de seguridad open source

Otras noticias

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial

Google despliega su inteligencia personal en Chrome y Search

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial