Microsoft lleva meses construyendo en silencio uno de los proyectos de voz abierta más ambiciosos fuera de OpenAI. VibeVoice es una familia de modelos open-source que cubre tanto síntesis como reconocimiento de voz — pero su historia real no es la del lanzamiento. Es la de lo que pasó después.
En agosto de 2025, Microsoft abrió el código de VibeVoice-TTS: un modelo de 1.5B parámetros capaz de sintetizar hasta 90 minutos de audio con hasta cuatro voces distintas. La calidad era notable. Demasiado notable: en semanas, empezaron a aparecer casos de uso que Microsoft claramente no había previsto. En septiembre, publicaron una línea escueta en el repositorio: “descubrimos instancias donde la herramienta se usó de maneras inconsistentes con su intención declarada” y removieron el código del TTS. El repositorio sigue ahí, pero el modelo de síntesis ya no.
¿Qué queda de VibeVoice?
Lo que sí sigue disponible — y lo que importa para quien construye hoy — es VibeVoice-ASR: un modelo de reconocimiento de voz de 7B parámetros que en marzo de 2026 fue integrado oficialmente a Hugging Face Transformers (v5.3.0). Eso significa que puedes usarlo con el mismo flujo estándar que usarías para cualquier modelo del ecosistema.
Aprende IA con nosotros
Únete gratis a mi comunidad en Skool, donde compartimos noticias, tutoriales y recursos para seguir aprendiendo juntos.
👥 Únete gratis 🚀La diferencia con Whisper de OpenAI o los modelos más convencionales de ASR es la unidad de procesamiento. Mientras la mayoría de los modelos de transcripción fragmentan el audio en chunks de 30 segundos (con la consecuente pérdida de contexto global), VibeVoice-ASR acepta hasta 60 minutos de audio continuo en un solo pase, dentro de una ventana de 64.000 tokens. Eso cambia bastante cómo funciona la diarización: el modelo rastrea quién habló durante toda la grabación, no solo en el segmento actual.
El output no es solo texto. Es texto estructurado con tres capas: who (identificación de hablante), when (timestamps) y what (transcripción). En una reunión de una hora con cuatro participantes, eso equivale a tener el acta prácticamente lista. También acepta “hotwords” personalizados — términos técnicos, nombres propios, siglas específicas del dominio — para mejorar la precisión en contextos especializados.
¿Qué lo diferencia técnicamente?
La arquitectura usa tokenizadores de voz continuos (acústico y semántico) operando a una frecuencia ultra-baja de 7.5 Hz. Esto les permite comprimir la representación del audio de manera eficiente sin perder fidelidad en las frecuencias que más afectan la inteligibilidad. Por encima de eso, corre un LLM (basado en Qwen2.5) que entiende el flujo conversacional, y un diffusion head que genera los detalles acústicos.
El soporte multilingüe cubre más de 50 idiomas — incluyendo español — lo que lo pone en la misma categoría que Omnilingual ASR de Meta en términos de ambición multilingüe, aunque con una fracción de los idiomas totales. La distinción real está en el procesamiento de audio largo estructurado: Omnilingual va por cobertura lingüística, VibeVoice va por calidad de transcripción en grabaciones largas con múltiples hablantes.
También hay un tercer modelo: VibeVoice-Realtime-0.5B, que sí sigue disponible y está pensado para síntesis de voz en tiempo real con latencia de unos 300 ms. Es más limitado que el TTS original — no hace clonación de voz ni generación multilingüe compleja — pero está disponible para integración.
Por qué importa el retiro del TTS
Microsoft tomó una decisión que pocas empresas tech toman explícitamente: retirar un modelo open-source ya publicado. Eso es técnicamente difícil de hacer efectivo (el código ya está en forks) pero simbólicamente dice algo. Contexto que vale tener: en ese mismo período, Mistral lanzó Voxtral, con clonación de voz en 3 segundos de audio, sin retirar nada. Y Hume AI publicó TADA, su propio TTS open-source, con un enfoque distinto en precisión.
El espacio de voz abierta está evolucionando rápido y con fricciones reales sobre qué debe o no quedar disponible sin restricciones. Lo que Microsoft eligió comunicar claramente — en vez de silenciar el tema — es, al menos, honesto.
¿Para quién es VibeVoice ASR hoy?
Para equipos que necesitan transcribir podcasts largos, grabaciones de reuniones, entrevistas o audio de investigación con múltiples participantes. Su integración en Transformers lo hace inmediatamente usable en pipelines existentes. El finetuning del ASR también está disponible en el repositorio, lo que abre posibilidades de especialización por dominio.
Para síntesis, el ecosistema open-source tiene otras opciones. Para transcripción de audio largo con diarización, VibeVoice ASR es hoy uno de los modelos más capaces que puedes descargar y ejecutar.

