Kitten TTS: voz de IA de calidad en 25 MB, sin GPU y sin nube

Share

La síntesis de voz de calidad siempre tuvo el mismo problema: o dependías de la nube, o necesitabas hardware serio. Kitten TTS, un modelo open-source lanzado por KittenML, quiere cambiar eso con un enfoque radical: menos de 25 MB, sin GPU, sin API externa, con calidad comparable a modelos mucho más pesados.

No es una promesa de marketing. El modelo nano de Kitten TTS tiene 15 millones de parámetros —para referencia, un modelo como ElevenLabs corre en la nube con arquitecturas de cientos de millones— y puede generar voz en tiempo real en una CPU básica. Incluso en una Raspberry Pi o un Intel N5000.

¿Qué es Kitten TTS y qué puede hacer?

Kitten TTS v0.8 viene en tres variantes: nano (14-15M parámetros, menos de 25 MB), micro (40M) y mini (80M). La versión nano es la estrella: es lo suficientemente pequeña para incluirse directamente en una app móvil o en un dispositivo edge, corre sin internet y sin GPU, y produce voz que suena natural en una docena de voces predefinidas.

Aprende IA con nosotros

Únete gratis a mi comunidad en Skool, donde compartimos noticias, tutoriales y recursos para seguir aprendiendo juntos.

👥 Únete gratis 🚀

Las capacidades técnicas concretas:

Licencia Apache 2.0 — se puede usar en productos comerciales sin restricciones
Ocho voces con nombres propios (Bella, Jasper, Luna, entre otras) con control de velocidad y tono
Disponible en Hugging Face para integración directa con pip install
Servidor FastAPI con UI e interfaz compatible con la API de OpenAI TTS, lo que permite sustituir el endpoint de pago de OpenAI por uno local
Variantes cuantizadas en int8 para reducir aún más el consumo de memoria

El repositorio en GitHub (KittenML/KittenTTS) ya acumula tracción en la comunidad, con una versión servidor paralela (devnen/Kitten-TTS-Server) que añade UI web, procesamiento de textos largos para audiolibros y aceleración GPU opcional.

¿Por qué importa que sea tan pequeño?

El tamaño de un modelo de IA no es solo un dato técnico —es lo que determina dónde puede vivir y a qué costo. Un modelo TTS de 25 MB puede vivir dentro de tu app sin aumentar significativamente su peso. Puede correr en el dispositivo del usuario sin consumir su plan de datos. Puede funcionar sin conexión —en zonas rurales, en vuelos, en entornos con internet restringido.

Para el contexto latinoamericano esto importa especialmente. El acceso a internet de calidad sigue siendo irregular fuera de las grandes ciudades de la región. Una solución TTS que no requiere nube es una solución accesible también donde la nube no llega de forma confiable.

El costo también desaparece. Modelos como ElevenLabs cobran por carácter generado; OpenAI TTS cobra por token de audio. En productos con usuarios activos generando voz continuamente, esos costos escalan rápido. Kitten TTS los elimina por completo.

El contexto: la carrera hacia modelos TTS eficientes

Kitten TTS llega en un momento donde varios proyectos compiten en el mismo espacio. TADA de Hume AI, también lanzado recientemente bajo licencia MIT, eliminó las alucinaciones de voz al atar el modelo directamente a los tokens de texto. Kokoro, otro modelo ligero, también apunta a CPU. La tendencia es clara: el ecosistema se está moviendo hacia voz de calidad sin necesidad de infraestructura costosa.

La diferencia de Kitten TTS frente a alternativas como Kokoro o pyttsx3 (que usa voces del sistema operativo) es la calidad perceptual: las voces suenan generadas por IA moderna, no por el sintetizador de texto a voz de 2005 que viene en tu OS. Para aplicaciones donde la voz tiene que sonar bien —asistentes, lectores de contenido, apps de accesibilidad— esa diferencia importa.

Casos de uso reales para builders

Los escenarios donde Kitten TTS tiene más valor inmediato:

Apps de accesibilidad: lector de pantalla sin dependencia de nube, con voz natural
Bots conversacionales en WhatsApp o Telegram: respuestas de audio sin API de pago
Plataformas de e-learning: generación de audio para contenidos a escala sin costo por carácter
Sistemas de notificaciones por voz: alertas, recordatorios, confirmaciones en apps IoT
Productos para mercados con conectividad limitada: cualquier caso donde el offline es un requisito

Fuentes

Rodrigo Rojo http://descubre.ai

Tabla de contenidos [hide]

¿Qué es Kitten TTS y qué puede hacer?
¿Por qué importa que sea tan pequeño?
El contexto: la carrera hacia modelos TTS eficientes
Casos de uso reales para builders
Fuentes

Kitten TTS: voz de IA de calidad en 25 MB, sin GPU y sin nube

¿Qué es Kitten TTS y qué puede hacer?

¿Por qué importa que sea tan pequeño?

El contexto: la carrera hacia modelos TTS eficientes

Casos de uso reales para builders

Fuentes

Tabla de contenidos [hide]

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial

Google despliega su inteligencia personal en Chrome y Search

Google blinda la cadena de suministro de IA con nuevas herramientas de seguridad open source

Otras noticias

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial

Google despliega su inteligencia personal en Chrome y Search

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial