Benchmarkear IA de voz es difícil. La mayoría de los benchmarks existentes usan audio sintético, prompts solo en inglés y condiciones de laboratorio que no se parecen en nada a cómo habla la gente de verdad. Scale AI identificó ese problema y lanzó Voice Showdown, la primera arena global de preferencias para evaluar modelos de voz a través de interacciones humanas reales. Y los resultados ya están revelando brechas que los benchmarks tradicionales no detectaban.
La propuesta es simple: los usuarios interactúan con modelos de voz en conversaciones cotidianas, y ocasionalmente el sistema les muestra una comparativa ciega entre dos modelos anónimos respondiendo al mismo prompt. El usuario elige cuál prefirió, y esa preferencia se convierte en dato. Sin scripts, sin audio grabado en estudio, sin trampa.
¿Qué es exactamente Voice Showdown?
Voice Showdown corre sobre ChatLab, la plataforma de Scale AI donde sus 500.000+ anotadores acceden gratuitamente a los modelos frontier más costosos del mercado. A cambio de ese acceso gratis, participan en comparativas ciegas que generan datos de preferencia auténtica. Hoy se abre una lista de espera pública para unirse.
IA para el Resto de Nosotros
La nueva versión de mi curso estrella para aprender a usar la IA de forma práctica, simple y útil en tu día a día. Comienza el 24 de marzo.
→ Inscríbete hoy 🚀El mecanismo incluye un detalle de diseño importante: cuando votas por un modelo, la plataforma te cambia a ese modelo para el resto de tu conversación. Si preferiste GPT-4o Audio sobre Gemini, pasas a GPT-4o Audio. Eso alinea incentivos: no puedes votar descuidadamente porque tu propia experiencia depende de ese voto.
Otras salvaguardas: ambas respuestas inician el streaming simultáneamente (elimina el sesgo de velocidad), el género de la voz se iguala entre ambas opciones (elimina el sesgo de género), y ningún modelo se identifica por nombre durante la votación.
El lanzamiento incluye 11 modelos frontier en 52 pares modelo-voz, evaluados en dos modos: Dictate (el usuario habla, el modelo responde con texto) y Speech-to-Speech o S2S (ambos lados hablan). Un tercer modo, Full Duplex —para capturar conversaciones con interrupciones en tiempo real— está en desarrollo.
Los rankings sorprenden más de lo esperado
En el leaderboard Dictate, Gemini 3 Pro y Gemini 3 Flash de Google están empatados estadísticamente en el primer lugar (Elo ~1.043-1.044 con controles de estilo). GPT-4o Audio de OpenAI ocupa un sólido tercer lugar. Los modelos open-weight —Voxtral Small, Gemma 3n y Phi-4 Multimodal— quedan notablemente atrás.
En Speech-to-Speech el panorama cambia. Gemini 2.5 Flash Audio y GPT-4o Audio empatan en el tope. Pero al ajustar por longitud de respuesta y formato —factores que pueden inflar la percepción de calidad— GPT-4o Audio toma la delantera (1.102 Elo vs. 1.075). Grok Voice salta al segundo lugar (1.093) bajo esos controles, lo que sugiere que su posición bruta subestima su desempeño real.
Qwen 3 Omni de Alibaba merece mención aparte. En ambos modos, el modelo open-weight supera en preferencia pura a varios nombres más conocidos. “Cuando los usuarios llegan, buscan los grandes nombres”, explica Janie Gu, product manager de Showdown en Scale AI. “Pero en preferencia real, modelos menos conocidos como Qwen se adelantan.”
El problema multilingüe es más grave de lo que pensábamos
Aquí está el hallazgo más revelador de todo el estudio, y el que tiene mayor impacto para el desarrollo global de voz IA. La brecha de robustez multilingüe es real y medible. En Dictate, Gemini 3 lidera en prácticamente todos los idiomas evaluados. En S2S, el ganador depende del idioma: GPT-4o Audio es mejor en árabe y turco; Gemini 2.5 Flash Audio domina en francés; Grok Voice es competitivo en japonés y portugués.
Pero el hallazgo más alarmante no es quién gana por idioma, sino lo que hacen los modelos cuando fallan: GPT Realtime 1.5 —el nuevo modelo de voz en tiempo real de OpenAI— responde en inglés a prompts en otros idiomas el 20% de las veces, incluso en idiomas de alto recurso como hindi, español y turco que soporta oficialmente. Su predecesor, GPT Realtime, lo hace aproximadamente la mitad de las veces (~10%). Gemini 2.5 Flash Audio y GPT-4o Audio están en ~7%.
Los testimonios reales de usuarios en la plataforma capturan la frustración: “GPT Realtime 1.5 pensó que estaba hablando incoherentemente y me recomendó asistencia de salud mental, mientras que Qwen 3 Omni identificó correctamente que estaba hablando un idioma local nigeriano.”
Esto ocurre porque los benchmarks existentes están construidos sobre audio sintético optimizado para condiciones acústicas limpias. Los hablantes reales con acentos, ruido de fondo, oraciones a medio terminar y variaciones regionales rompen la comprensión del habla de maneras que el laboratorio nunca anticipa. En un contexto como el de Latinoamérica —con español regional, portugués brasileño y decenas de lenguas indígenas— esto no es un detalle menor.
Lo que Voice Showdown revela sobre cómo fallan los modelos
Más allá del ranking, los datos de fallo son los más útiles. En conversaciones extendidas, los modelos se degradan: en el turno 1, los fallos de calidad de contenido representan el 23% de las fallas totales; en el turno 11 o más, ese número sube al 43%. La capacidad de mantener coherencia en conversaciones largas es el talón de Aquiles de la mayoría de los modelos actuales. Los modelos GPT Realtime son la excepción: mejoran marginalmente en turnos tardíos, consistente con sus fortalezas conocidas en contextos largos.
La firma de errores también difiere por modelo. Qwen 3 Omni pierde en speech generation —su razonamiento es competitivo pero los usuarios rechazan cómo suena. GPT Realtime 1.5 falla principalmente en comprensión de audio (51% de sus pérdidas). Grok Voice distribuye sus errores de manera más uniforme: sin punto débil dominante, pero sin fortaleza particular tampoco.
Un dato extra que justifica prestarle atención a la evaluación a nivel de voz individual: dentro de un mismo modelo, la voz mejor rankeada gana un 30% de las veces más que la peor voz del mismo modelo. El backend de razonamiento es idéntico; la diferencia es puramente presentacional. En un entorno donde la calidad de voz ya es un diferenciador de producto, eso es significativo.
Por qué importa para el ecosistema
Voice Showdown no es solo un leaderboard más. Es el primer intento sistemático de medir la voz IA en condiciones reales, con datos de preferencia humana a escala, y en más de 60 idiomas. Eso lo diferencia cualitativamente de Chatbot Arena y de los benchmarks sintéticos que dominan el campo.
Para cualquier equipo construyendo un producto con componente de voz, los datos que ofrece —especialmente los de robustez multilingüe y degradación en conversaciones largas— son más accionables que cualquier benchmark de laboratorio. El mercado hispanohablante tiene ~500 millones de usuarios de voz potenciales; saber qué modelos no cambian de idioma a mitad de conversación es información valiosa.
El contexto más amplio: la carrera de voz IA está acelerando. OpenAI, Google, xAI y Alibaba publican actualizaciones de sus modelos de voz con cadencia mensual. Meta lanzó Omnilingual ASR con soporte para 1.600 idiomas, y startups como Reson8 apuestan por modelos de voz adaptables por industria. En ese contexto, un benchmark que funcione a través de preferencias reales en idiomas no ingleses puede influir directamente en qué modelos se adoptan —y cuáles no.
Voice Showdown está disponible en labs.scale.com/showdown. La lista de espera para unirse a ChatLab está abierta desde hoy.

