Meta lanza Omnilingual ASR: reconocimiento de voz para 1.600 idiomas

Share

OpenAI tiene Whisper, que transcribe audio en 99 idiomas. Meta acaba de publicar Omnilingual ASR, que soporta 1.600 idiomas — y puede extenderse a 5.400 sin reentrenamiento. Con licencia Apache 2.0. Sin restricciones. Gratis para uso comercial.

Es el sistema de reconocimiento de voz más abarcante jamás lanzado, y llegó prácticamente sin fanfarria en noviembre de 2025. Pero su impacto potencial es enorme: por primera vez en la historia, existe un modelo de voz capaz de transcribir no solo los idiomas con grandes datasets de internet, sino también lenguas con recursos mínimos — incluidas lenguas indígenas, lenguas en peligro de extinción, y miles de idiomas que nunca habían sido representados en sistemas de IA.

¿Qué es Omnilingual ASR y qué lo hace diferente?

Omnilingual ASR es una familia de modelos de reconocimiento automático de voz (ASR, por sus siglas en inglés) entrenados sobre 4,3 millones de horas de audio en más de 1.600 idiomas. El sistema incluye varios componentes:

Aprende IA con nosotros

Únete gratis a mi comunidad en Skool, donde compartimos noticias, tutoriales y recursos para seguir aprendiendo juntos.

👥 Únete gratis 🚀

wav2vec 2.0 escalado a 7B parámetros: un encoder de audio que genera representaciones masivamente multilingues y semánticamente ricas — el primer modelo de este tipo a esa escala
Modelos CTC: para transcripción eficiente en idiomas con datos de entrenamiento
LLM-ASR: combina el encoder de audio con un decoder tipo Transformer para transcripción de máximo rendimiento
LLM-ZeroShot ASR: la pieza más innovadora — puede transcribir idiomas que nunca vio durante el entrenamiento, usando solo unos pocos ejemplos en tiempo de inferencia

La variante ZeroShot es lo que eleva el sistema de 1.600 a 5.400 idiomas. Con in-context learning, basta con proveer algunos pares de audio y texto en el idioma nuevo para que el modelo generalice y transcriba. No se necesita reentrenar ni datos masivos — solo unos ejemplos.

La brecha que Omnilingual intenta cerrar

Hay aproximadamente 7.000 idiomas hablados en el mundo. La mayoría de los sistemas de ASR modernos soportan entre 50 y 200. El resto — miles de idiomas hablados por comunidades pequeñas, pueblos indígenas, grupos en regiones sin conectividad — sencillamente no existen para la IA de voz.

Esto tiene consecuencias concretas: estas comunidades no pueden beneficiarse de asistentes de voz, herramientas de transcripción, subtitulado automático o accesibilidad digital. Sus lenguas, en muchos casos en peligro de desaparición, no quedan registradas ni preservadas en formato digital.

Omnilingual ASR cambia esa ecuación con dos mecanismos:

Para los 1.600 idiomas de entrenamiento: transcripción directa de alta calidad, logrando mejores tasas de error de caracteres (CER) que sistemas previos en la mayoría de los idiomas evaluados
Para los ~350 idiomas “underserved” incluidos en el corpus de entrenamiento: el sistema demostró mejoras significativas en lenguas que nunca habían tenido un modelo de ASR dedicado

Open source de verdad: Apache 2.0

Un punto que no debe pasarse por alto: a diferencia de los modelos Llama de Meta, que usan licencias restrictivas que limitan el uso por empresas grandes, Omnilingual ASR se publicó bajo Apache 2.0. Eso significa:

Uso comercial libre sin restricciones
Modificación y redistribución permitidas
No hay cláusulas de “si tienes X millones de usuarios necesitas negociar”

Los modelos, el código, el dataset y el espacio de demos en Hugging Face están disponibles públicamente desde el lanzamiento.

Por qué importa

El reconocimiento de voz multilingüe masivo abre puertas que no estaban abiertas antes. Para América Latina específicamente, donde coexisten decenas de lenguas indígenas — quechua, aimara, náhuatl, mapudungun, guaraní, y cientos más — la posibilidad de transcripción de alta calidad sin recursos masivos es significativa.

Piensa en el impacto para: archivistas que preservan lenguas en peligro de extinción, radios comunitarias que quieren transcribir su contenido, sistemas de salud que necesitan comunicarse con poblaciones indígenas, o aplicaciones educativas en lenguas nativas. Antes, todo eso requería datos etiquetados masivos y años de trabajo. Ahora, con ZeroShot, puede arrancar con decenas de ejemplos.

También hay un ángulo competitivo interesante. OpenAI Whisper, que durante años fue el referente de open source en ASR, soporta 99 idiomas. Omnilingual ASR lo supera 16 veces en cobertura, con mejor rendimiento en idiomas de bajos recursos, y sin las restricciones de licencia que complican el uso empresarial de Llama. Es un movimiento que refuerza la apuesta de Meta por el open source como estrategia diferenciadora frente a los modelos propietarios.

Para los developers de la región: los modelos ya están en Hugging Face, el demo está disponible, y el código está en GitHub bajo facebookresearch. No hay excusas para no experimentar.

Fuentes

Rodrigo Rojo http://descubre.ai

Tabla de contenidos [hide]

¿Qué es Omnilingual ASR y qué lo hace diferente?
La brecha que Omnilingual intenta cerrar
Open source de verdad: Apache 2.0
Por qué importa
Fuentes

Meta lanza Omnilingual ASR: reconocimiento de voz para 1.600 idiomas — y puede extenderse a 5.400

¿Qué es Omnilingual ASR y qué lo hace diferente?

La brecha que Omnilingual intenta cerrar

Open source de verdad: Apache 2.0

Por qué importa

Fuentes

Tabla de contenidos [hide]

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial

Google despliega su inteligencia personal en Chrome y Search

Google blinda la cadena de suministro de IA con nuevas herramientas de seguridad open source

Otras noticias

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial

Google despliega su inteligencia personal en Chrome y Search

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial