En síntesis de voz, velocidad es marketing. Precisión es producción. Hume AI acaba de abrir el código de TADA, un modelo que promete algo que sus competidores rara vez mencionan: cero palabras inventadas. En tests con más de 1.000 muestras, el sistema no omitió ni añadió ni una sola palabra que no estuviera en el texto original. Para cualquiera que haya intentado meter TTS en un producto real, eso no es un detalle técnico, es la diferencia entre desplegarlo y descartarlo.
TADA —sigla de Text-Acoustic Dual Alignment— viene de Hume AI, una empresa enfocada en IA empática y voz. El modelo está disponible ahora mismo en GitHub y Hugging Face bajo licencia MIT, en dos versiones: 1B parámetros (solo inglés) y 3B parámetros (ocho idiomas). Ambos se basan en Llama. El paper técnico está en arXiv (2602.23068).
¿Qué cambió en la arquitectura?
El problema de fondo con la síntesis de voz anterior es una desconexión estructural: los modelos generaban varios tokens de audio por cada token de texto, lo que creaba espacio para que el modelo “se fuera de la ruta” y alucinara sílabas, palabras o frases enteras. TADA resuelve esto de una forma elegantemente simple: mapea exactamente un token de audio por cada token de texto. Sin saltos, sin gaps, sin margen para inventar.
IA para el Resto de Nosotros
La nueva versión de mi curso estrella para aprender a usar la IA de forma práctica, simple y útil en tu día a día. Comienza el 24 de marzo.
→ Inscríbete hoy 🚀El resultado: TADA es más de cinco veces más rápido que sistemas comparables —no porque haya optimizado el hardware, sino porque genera menos tokens en total— y elimina prácticamente las alucinaciones de transcripción. En evaluaciones humanas obtuvo 3,78 sobre 5 en naturalidad, que es decente sin ser el estado del arte en calidad perceptual.
El modelo es también compacto. Puede correr en smartphones, aunque en textos largos la voz puede derivar ligeramente. Esa limitación es honesta y vale reconocerla: para uso conversacional corto, TADA es sólido; para narrativas largas, hay trabajo pendiente.
Por qué importa que sea open-source
El ecosistema de TTS open-source ha vivido en una brecha constante con los modelos propietarios de Google, Microsoft y OpenAI. Meta ya abrió SAM Audio para separación de sonido, y Omnilingual ASR llevó el reconocimiento de voz a 1.600 idiomas. Pero en generación de voz —el proceso inverso— las opciones open-source de calidad son escasas. TADA entra en ese espacio con una propuesta concreta: no ser el más natural, sino el más confiable.
MIT es la licencia más permisiva del espectro. Significa que cualquier startup puede usar TADA en producción, en un producto comercial, sin restricciones de uso ni royalties. Eso baja el costo de entrada de forma significativa para equipos que construyen asistentes de voz, lectores de pantalla, interfaces de accesibilidad o cualquier producto donde el texto tiene que convertirse en audio de forma confiable.
El contexto competitivo
Los grandes laboratorios no se quedan quietos. OpenAI prepara un nuevo modelo omni con audio bidireccional que soporta interrupciones. Google tiene sus propias capacidades de síntesis integradas en Gemini. ElevenLabs domina el segmento premium. En ese contexto, TADA no compite por ser el mejor en todas las métricas, sino por ser el más transparente, el más auditable y el más accesible para desarrolladores que quieren entender y controlar lo que está pasando bajo el capó.
Hay además un ángulo de investigación relevante: el paper de Hume propone que el alineamiento texto-audio es un mecanismo transferible. La arquitectura de TADA podría adaptarse más allá del inglés y las ocho lenguas actuales, y la metodología para medir y eliminar alucinaciones es valiosa por sí misma para cualquier grupo que trabaje en síntesis de voz multilingüe.
Por qué importa
La síntesis de voz que alucina palabras es código que no se puede poner en producción. Para textos legales, médicos, accesibilidad, avisos de seguridad, cualquier dominio donde una palabra inventada tiene consecuencias, la tasa de alucinaciones es la métrica que veta o aprueba un modelo. TADA la lleva a cero en su test set, y lo hace en open-source, en MIT, en un modelo que corre en dispositivos móviles.
No va a reemplazar a ElevenLabs ni a los modelos de voz de frontier. Pero para developers que construyen sobre texto-a-voz y necesitan certeza sobre lo que el modelo va a decir, TADA es ahora la opción de referencia en open-source. Eso es un cambio concreto en el paisaje.

