Montar un sistema de búsqueda para una app de IA habitualmente implica combinar servicios: uno para vectores (Pinecone, Weaviate, Qdrant), otro para full-text (Elasticsearch), quizá un grafo (Neo4j), y encima los embeddings, el chunking y los pipelines de ingestión. AntflyDB apuesta a colapsar todo eso en una sola base de datos distribuida open source escrita en Go.
El proyecto, disponible en GitHub, combina búsqueda híbrida (BM25 full-text + vectores densos + SPLADE sparse), travesía de grafos y soporte multimodal —texto, imágenes, audio y video— en un único motor. Los embeddings, el chunking y la extracción de relaciones para el grafo se generan automáticamente al escribir datos. Además incluye agentes RAG integrados con streaming, multi-turn chat, tool calling y scoring de confianza.
Internamente usa la librería Raft de etcd para consenso distribuido, y Pebble (la misma base de CockroachDB) como almacenamiento key-value. Soporta transacciones ACID a nivel shard, TTL de documentos, y almacenamiento en S3/MinIO/R2 para reducir costos. Se lanza con un solo comando: docker run -p 8080:8080 ghcr.io/antflydb/antfly:omni.
Claude Desbloqueado
Mi curso avanzado para aprender a sacarle mucho más provecho a Claude en el trabajo y en el día a día, con funciones y usos más potentes. Comienza el 23 de marzo.
→ Inscríbete hoy 🚀El núcleo está bajo Elastic License 2.0 (similar a Elasticsearch o MongoDB: puedes usarlo, pero no venderlo como servicio gestionado). Los SDKs para Go, TypeScript y Python son Apache 2.0.
Por qué importa
El stack típico de una app RAG tiene al menos 4-5 piezas que coordinar. La promesa de AntflyDB es simplificar eso a una dependencia. Hay proyectos que apuntan al mismo problema de distintos ángulos: Captain (YC W26) automatiza el pipeline RAG sobre infraestructura existente, mientras que Gemini Embedding 2 lleva la multimodalidad al nivel del modelo de embeddings.
AntflyDB ataca la capa de infraestructura directamente. Si la propuesta se sostiene en producción —especialmente la parte de multimodalidad real con CLIP y CLAP, no solo texto— podría ser una alternativa interesante para equipos que prefieren control total sobre sus datos a cambio de más operaciones propias. El punto débil potencial: Elastic License 2.0 limita casos de uso empresariales donde la política de licencias importa.
Vale seguirlo de cerca. El dashboard Antfarm y las demos del repo son un buen punto de entrada para evaluar si la integración es real o marketing de landing page.
Nota: este proyecto podría tener entrada propia en el catálogo de herramientas de descubre.ai.

