OpenAI prepara un nuevo modelo omni y un audio bidireccional que soporta interrupciones

Share

Dos ingenieros de OpenAI publicaron mensajes en X que apuntan a algo concreto: un nuevo modelo multimodal —probablemente sucesor de GPT-4o— estaría en desarrollo activo. Y hay más: un modelo de audio bidireccional llamado BiDi que permitiría interrumpir al asistente en medio de una respuesta, algo que los modelos actuales no pueden hacer bien.

No es un lanzamiento oficial. Son señales. Pero en OpenAI, este tipo de guiños de los propios empleados tiene historial de materializarse.

¿Qué se sabe del nuevo modelo “omni”?

Atty Eleti, del equipo de Voice de OpenAI, escribió en X que está “tan emocionado por lo que viene” y preguntó a usuarios qué querrían de un nuevo modelo omni. Brandon McKinzie, investigador con background multimodal en Apple antes de unirse a OpenAI, respondió que “suena como una gran idea.”

Los modelos “omni” son aquellos que procesan texto, imagen, audio y video en un mismo sistema, en lugar de usar modelos separados para cada formato. GPT-4o fue el primero de OpenAI en combinar estos modales en un solo modelo. GPT-5.4 ya incorpora control de computadora de forma nativa, pero según las pistas, el próximo omni podría ser un salto más ambicioso en capacidades multimodales integradas.

BiDi: el modelo de audio que escucha mientras hablas

La segunda señal viene de The Information: OpenAI está desarrollando un modelo de audio llamado BiDi (bidireccional), diseñado para manejar interrupciones en tiempo real. Los modelos actuales funcionan por turnos: el AI espera a que termines de hablar antes de responder. BiDi estaría construido para responder mientras aún estás hablando, igual que una conversación humana real.

El prototipo ya existe, pero tiene un problema: tiende a desestabilizarse después de pocos minutos de conversación. El lanzamiento podría retrasarse al segundo trimestre de 2026 o más tarde. Es una tecnología difícil —el reconocimiento de voz en tiempo real con generación simultánea es un problema de ingeniería complejo— pero si lo resuelven, cambiaría fundamentalmente cómo se siente hablar con un asistente de IA.

El contexto: OpenAI está acelerando

Estos rumores llegan en un momento en que OpenAI está apostando fuerte por la experiencia de voz y la integración multimodal. ChatGPT ya tiene modo de voz, pero la latencia y los turnos de conversación lo hacen sentir artificial. BiDi y un nuevo omni apuntarían a resolver exactamente eso.

  • GPT-4o (mayo 2024): primer modelo omni de OpenAI, texto + imagen + audio.
  • GPT-5.4 (2026): incorpora control de computadora nativo, razonamiento avanzado.
  • Próximo omni (sin fecha): sucesor con capacidades multimodales expandidas, posiblemente incluyendo video.
  • BiDi (Q2 2026 o después): audio bidireccional con soporte a interrupciones en tiempo real.

Por qué importa

La carrera de los modelos de IA está llegando a un punto donde las diferencias de benchmark entre modelos son cada vez más pequeñas. El próximo campo de batalla es la experiencia: qué tan natural se siente hablar con un asistente, qué tan bien entiende el contexto visual, qué tan fluida es la conversación.

Un nuevo modelo omni con audio bidireccional podría ser la diferencia entre un asistente que toleras y uno que realmente quieres usar. Google ya está empujando fuerte en esta dirección con Gemini Live y sus capacidades multimodales. La presión de la competencia es real.

Lo que sigue siendo una incógnita: si el nuevo omni incorporará las capacidades de razonamiento avanzado de los modelos o-series, o si seguirá siendo un modelo optimizado para velocidad e interacción. Esa decisión determinará cuánto del catálogo de OpenAI puede eventualmente colapsar en un único modelo.

Si quieres entender cómo OpenAI ha evolucionado sus modelos en los últimos meses, los artículos de GPT-5.3 Instant y GPT-5.4 con computer use dan el contexto necesario.


Fuentes

Leer más

Otras noticias