OpenAI tiene Whisper, que transcribe audio en 99 idiomas. Meta acaba de publicar Omnilingual ASR, que soporta 1.600 idiomas — y puede extenderse a 5.400 sin reentrenamiento. Con licencia Apache 2.0. Sin restricciones. Gratis para uso comercial.
Es el sistema de reconocimiento de voz más abarcante jamás lanzado, y llegó prácticamente sin fanfarria en noviembre de 2025. Pero su impacto potencial es enorme: por primera vez en la historia, existe un modelo de voz capaz de transcribir no solo los idiomas con grandes datasets de internet, sino también lenguas con recursos mínimos — incluidas lenguas indígenas, lenguas en peligro de extinción, y miles de idiomas que nunca habían sido representados en sistemas de IA.
¿Qué es Omnilingual ASR y qué lo hace diferente?
Omnilingual ASR es una familia de modelos de reconocimiento automático de voz (ASR, por sus siglas en inglés) entrenados sobre 4,3 millones de horas de audio en más de 1.600 idiomas. El sistema incluye varios componentes:
IA para el Resto de Nosotros
La nueva versión de mi curso estrella para aprender a usar la IA de forma práctica, simple y útil en tu día a día. Comienza el 24 de marzo.
→ Inscríbete hoy 🚀- wav2vec 2.0 escalado a 7B parámetros: un encoder de audio que genera representaciones masivamente multilingues y semánticamente ricas — el primer modelo de este tipo a esa escala
- Modelos CTC: para transcripción eficiente en idiomas con datos de entrenamiento
- LLM-ASR: combina el encoder de audio con un decoder tipo Transformer para transcripción de máximo rendimiento
- LLM-ZeroShot ASR: la pieza más innovadora — puede transcribir idiomas que nunca vio durante el entrenamiento, usando solo unos pocos ejemplos en tiempo de inferencia
La variante ZeroShot es lo que eleva el sistema de 1.600 a 5.400 idiomas. Con in-context learning, basta con proveer algunos pares de audio y texto en el idioma nuevo para que el modelo generalice y transcriba. No se necesita reentrenar ni datos masivos — solo unos ejemplos.
La brecha que Omnilingual intenta cerrar
Hay aproximadamente 7.000 idiomas hablados en el mundo. La mayoría de los sistemas de ASR modernos soportan entre 50 y 200. El resto — miles de idiomas hablados por comunidades pequeñas, pueblos indígenas, grupos en regiones sin conectividad — sencillamente no existen para la IA de voz.
Esto tiene consecuencias concretas: estas comunidades no pueden beneficiarse de asistentes de voz, herramientas de transcripción, subtitulado automático o accesibilidad digital. Sus lenguas, en muchos casos en peligro de desaparición, no quedan registradas ni preservadas en formato digital.
Omnilingual ASR cambia esa ecuación con dos mecanismos:
- Para los 1.600 idiomas de entrenamiento: transcripción directa de alta calidad, logrando mejores tasas de error de caracteres (CER) que sistemas previos en la mayoría de los idiomas evaluados
- Para los ~350 idiomas “underserved” incluidos en el corpus de entrenamiento: el sistema demostró mejoras significativas en lenguas que nunca habían tenido un modelo de ASR dedicado
Open source de verdad: Apache 2.0
Un punto que no debe pasarse por alto: a diferencia de los modelos Llama de Meta, que usan licencias restrictivas que limitan el uso por empresas grandes, Omnilingual ASR se publicó bajo Apache 2.0. Eso significa:
- Uso comercial libre sin restricciones
- Modificación y redistribución permitidas
- No hay cláusulas de “si tienes X millones de usuarios necesitas negociar”
Los modelos, el código, el dataset y el espacio de demos en Hugging Face están disponibles públicamente desde el lanzamiento.
Por qué importa
El reconocimiento de voz multilingüe masivo abre puertas que no estaban abiertas antes. Para América Latina específicamente, donde coexisten decenas de lenguas indígenas — quechua, aimara, náhuatl, mapudungun, guaraní, y cientos más — la posibilidad de transcripción de alta calidad sin recursos masivos es significativa.
Piensa en el impacto para: archivistas que preservan lenguas en peligro de extinción, radios comunitarias que quieren transcribir su contenido, sistemas de salud que necesitan comunicarse con poblaciones indígenas, o aplicaciones educativas en lenguas nativas. Antes, todo eso requería datos etiquetados masivos y años de trabajo. Ahora, con ZeroShot, puede arrancar con decenas de ejemplos.
También hay un ángulo competitivo interesante. OpenAI Whisper, que durante años fue el referente de open source en ASR, soporta 99 idiomas. Omnilingual ASR lo supera 16 veces en cobertura, con mejor rendimiento en idiomas de bajos recursos, y sin las restricciones de licencia que complican el uso empresarial de Llama. Es un movimiento que refuerza la apuesta de Meta por el open source como estrategia diferenciadora frente a los modelos propietarios.
Para los developers de la región: los modelos ya están en Hugging Face, el demo está disponible, y el código está en GitHub bajo facebookresearch. No hay excusas para no experimentar.

