Google acaba de mover una pieza importante, aunque menos vistosa que un nuevo chatbot. El 10 de marzo lanzó Gemini Embedding 2 en vista previa pública: su primer modelo de embeddings multimodal nativo, capaz de llevar texto, imágenes, video, audio y documentos al mismo espacio vectorial. Dicho en simple: ahora Google quiere que una búsqueda semántica pueda entender distintos tipos de datos sin depender de una cadena de parches intermedios.
La novedad suena técnica, pero tiene implicancias bien prácticas. Para cualquier equipo que esté construyendo RAG, búsqueda interna, clasificación de contenido o recomendadores, el cuello de botella suele estar en traducir todo a texto antes de indexarlo. Gemini Embedding 2 ataca exactamente ese impuesto: menos conversión, menos latencia y, en teoría, menos pérdida de contexto.
¿Qué es exactamente un embedding y por qué importa?
Un embedding convierte información en una lista de números —un vector— que representa significado. Si dos cosas son semánticamente parecidas, quedan cerca dentro de ese espacio matemático. Eso permite búsquedas más inteligentes, recomendaciones más finas y sistemas RAG que no dependen solo de coincidencias literales.
Hasta ahí, nada nuevo. Lo interesante es que la mayoría de los embeddings que se usan hoy siguen siendo, en la práctica, text-first. Si querías indexar video o audio, normalmente terminabas transcribiendo, resumiendo o describiendo el material antes de enviarlo al sistema. Eso agrega latencia, complejidad y errores. Gemini Embedding 2 intenta saltarse esa capa.
Este lanzamiento también se conecta con otra tendencia que ya venimos viendo en NotebookLM Video y en las nuevas interfaces de búsqueda con IA de Google: el futuro cercano no es solo texto contra texto. Es texto, documentos, audio y video conviviendo en la misma lógica de recuperación.
Qué trae Gemini Embedding 2
Según Google DeepMind, el nuevo modelo fue construido sobre arquitectura Gemini y ya está disponible en Public Preview vía Gemini API y Vertex AI. Sus capacidades base son estas:
- Texto: hasta 8.192 tokens por solicitud.
- Imágenes: hasta 6 imágenes por request.
- Video: hasta 120 segundos, en formatos como MP4 y MOV.
- Audio: ingestión nativa, sin necesidad de transcripción intermedia.
- Documentos: PDFs de hasta 6 páginas por solicitud.
Además, soporta entrada intercalada. Eso significa que puedes mezclar modalidades en una misma llamada, por ejemplo una imagen y una pregunta en texto. Para una empresa, eso permite consultas más cercanas al mundo real: “este pantallazo de error + este correo + esta llamada grabada” como parte de una misma unidad semántica.
En paralelo, Google mantiene su enfoque de dimensiones flexibles con Matryoshka Representation Learning (MRL). El vector sale por defecto en 3.072 dimensiones, pero el modelo puede recortarse a 1.536 o 768 para abaratar almacenamiento sin sacrificar toda la calidad. Para equipos que pagan fuerte en vector DB, eso no es un detalle menor.
Qué cambia para equipos que hacen RAG y búsqueda
La promesa grande aquí es una base de conocimiento realmente unificada. Piensa en un caso común: soporte al cliente con correos, PDFs, screenshots y audios. Antes había que montar varios pipelines, cada uno con su propia limpieza, transformación y lógica de indexación. Con un embedding multimodal nativo, una parte de esa arquitectura podría simplificarse.
VentureBeat destaca dos casos tempranos citados por Google. Sparkonomy habría reducido hasta 70% la latencia al eliminar inferencias intermedias, mientras que Everlaw usa el modelo en discovery legal para encontrar relaciones entre documentos, imágenes y videos en contextos de litigio. Si esos números se sostienen fuera del material promocional, estamos frente a una mejora bastante concreta.
Esto también dialoga con nuestro artículo sobre memoria persistente sin vector DB. La pregunta ya no es solo si debes usar embeddings, sino en qué casos te conviene pagar ese costo y con qué calidad multimodal. Para ciertos productos, la simplificación de pipeline puede compensar de sobra.
Precios, límites y letra chica
Google lo lanzó en preview, no en disponibilidad general. Eso significa dos cosas: ya se puede probar, pero todavía puede haber cambios en límites, rendimiento y pricing.
- Gemini API: orientada a prototipos y desarrolladores; incluye una capa gratuita con límites de uso.
- Vertex AI: pensada para despliegues enterprise y cargas más serias.
- Pricing estándar: Google menciona US$0,25 por millón de tokens para texto, imagen y video.
- Audio nativo: US$0,50 por millón de tokens.
También hay límites operativos claros. No puedes embeber un PDF gigantesco o una videoteca entera en una sola llamada. Hay que segmentar: PDFs en bloques de hasta seis páginas, video en tramos de dos minutos, audio en trozos manejables. El valor está en que todos esos fragmentos terminan viviendo en el mismo espacio semántico.
En integración, Google ya lo enchufa a nombres grandes del ecosistema: LangChain, LlamaIndex, Haystack, Weaviate, Qdrant y ChromaDB. Esa compatibilidad baja bastante la fricción de prueba para equipos que ya tienen un stack montado.
¿Es una amenaza real para OpenAI y el resto?
Sí, sobre todo en casos donde el dato no es puramente textual. OpenAI sigue fuerte con su familia text-embedding, pero la jugada de Google aquí no va por una mejora incremental de precisión, sino por cambiar el tablero: un solo modelo para múltiples formatos y búsquedas cruzadas entre ellos.
Eso no significa que todo el mundo deba migrar mañana. Si tu producto trabaja solo con texto y ya está afinado, el costo de reindexar todo podría no justificar el cambio hoy. Pero si tu stack ya está lleno de audio, screenshots, PDFs, material audiovisual o documentación mixta, la propuesta de Gemini Embedding 2 se vuelve bastante más difícil de ignorar.
Además, refuerza una idea más amplia: Google no solo quiere competir en el frente de los modelos conversacionales. También quiere pelear la infraestructura invisible que hace funcionar productos de IA empresariales. Y esa capa, aunque menos glamorosa, suele ser la que termina decidiendo costos, velocidad y escalabilidad.
Por qué importa
Gemini Embedding 2 no viene a robarse titulares como un nuevo asistente de voz, pero puede terminar siendo más relevante para quienes construyen productos reales. Los embeddings son una de esas piezas que casi nadie ve y que, sin embargo, condicionan si una búsqueda responde bien, si un RAG encuentra el documento correcto o si tu producto multimodal escala sin convertirse en una sopa de servicios intermedios.
La apuesta de Google es clara: simplificar esa tubería y capturar a los equipos que están cansados de traducir todo a texto para que una IA lo entienda. Si el rendimiento y los costos se acercan a lo que prometen en preview, Gemini Embedding 2 puede convertirse rápido en una pieza clave para la próxima generación de búsquedas y asistentes empresariales. No es solo otro modelo. Es infraestructura para que los demás modelos trabajen mejor.

