Cohere lanzó Transcribe, un modelo de reconocimiento de voz (ASR) de 2.000 millones de parámetros con licencia Apache-2.0 que se puede correr en infraestructura propia. Con un Word Error Rate (WER) promedio de 5,42%, lidera el leaderboard de ASR de Hugging Face — por encima de Whisper Large v3 (7,44%), ElevenLabs Scribe v2 (5,83%), y Qwen3-ASR-1.7B (5,76%).
El diseño es deliberado: Cohere quería un modelo que compitiera en precisión con las APIs cerradas pero que pudiera correr en infraestructura local. Eso resuelve el trade-off que ha definido el mercado ASR enterprise hasta ahora: o precisión (APIs cerradas, datos que salen a terceros) o control (modelos open source, pero con menor accuracy).
¿Qué hace diferente a Transcribe?
El modelo está entrenado en 14 idiomas: inglés, francés, alemán, italiano, español, griego, holandés, polaco, portugués, chino, japonés, coreano, vietnamita, y árabe. La licencia Apache-2.0 permite uso comercial desde el día uno — a diferencia de Whisper, que se lanzó como modelo de investigación bajo MIT license y fue adoptado para producción de manera ad hoc.
Aprende IA con nosotros
Únete gratis a mi comunidad en Skool, donde compartimos noticias, tutoriales y recursos para seguir aprendiendo juntos.
👥 Únete gratis 🚀Cohere lo describe como diseñado para “extender la frontera de Pareto”: alta precisión (WER bajo) con alto throughput (RTFx) dentro de la categoría de modelos de 1B+ parámetros. En benchmarks específicos: 8,15% en el dataset AMI (análisis de conversaciones en reuniones) y 5,87% en Voxpopuli (diversidad de acentos), donde solo es superado por Zoom Scribe.
El footprint de inferencia es “manejable para GPUs locales estándar” según Cohere — lo que significa que no necesitas H100s para correrlo.
Por qué importa para equipos que trabajan con audio
Para builders que han estado enrutando audio a través de APIs externas (Whisper API, ElevenLabs, Deepgram), Transcribe ofrece un camino de migración hacia procesamiento in-house con accuracy comparable o superior. Las ventajas son concretas:
Residencia de datos: Si el audio contiene información sensible (llamadas de clientes, notas médicas, transcripciones legales), procesarlo en infraestructura propia elimina el riesgo de que datos regulados salgan a terceros. En sectores como salud, banca o legal, eso no es una opción — es un requisito.
Latencia: Las APIs remotas tienen round-trip. Un modelo corriendo en tu infraestructura reduce latencia, especialmente crítica en aplicaciones de tiempo real como transcripción en vivo o agentes conversacionales.
Costo a escala: Las APIs de transcripción cobran por minuto de audio. A volúmenes altos, un modelo local amortiza el costo de infraestructura rápidamente.
El caso de uso más directo es para equipos construyendo pipelines RAG con inputs de audio, agentes conversacionales, o automatización de procesos basada en voz — exactamente donde la calidad de la transcripción determina la calidad del output downstream. Mistral también lanzó Voxtral, su modelo open-weight de síntesis de voz — el ecosistema de audio con IA open-weight está madurando rápido.
El contexto competitivo
Transcribe entra a un mercado donde Whisper (OpenAI, MIT) sigue siendo el referente de facto para ASR open source, a pesar de que su WER de 7,44% en Large v3 ya empieza a mostrar su edad. La competencia está creciendo — Qwen3-ASR, ElevenLabs Scribe, Zoom Scribe — y cada modelo nuevo empuja el estándar de lo que se espera de un sistema de transcripción en producción.
Lo que diferencia a Transcribe en ese contexto no es solo el WER — es la combinación de WER competitivo + licencia comercial libre + diseño explícito para producción. Whisper fue un modelo de investigación que la industria adoptó para producción por falta de alternativas. Transcribe está construido desde el principio para ese uso.
Para LATAM, el soporte de español con 5,42% de WER promedio es relevante: la diversidad de acentos regionales ha sido históricamente un problema para los modelos ASR entrenados principalmente en español neutro. Los benchmarks de Voxpopuli (que mide diversidad de acentos) son alentadores, aunque Cohere no especificó qué variedades de español están representadas en el entrenamiento. Aplicaciones de salud en LATAM que dependen de procesamiento de audio en español podrían beneficiarse de un modelo con mejor cobertura de acentos regionales.
Acceso
Disponible como cohere-transcribe-03-2026 en el Model Vault de Cohere y via API. El modelo tiene pesos abiertos bajo Apache-2.0, por lo que puede descargarse y desplegarse en infraestructura propia sin restricciones de uso comercial.

