Los modelos de vídeo con IA chocan contra un techo de razonamiento que más datos no van a resolver

Share

Los modelos de vídeo más avanzados del mundo —Sora 2 de OpenAI, Veo 3.1 de Google DeepMind— tienen un problema que más datos de entrenamiento no van a resolver. Un equipo de más de 50 investigadores de 32 instituciones (UC Berkeley, Stanford, Harvard, Oxford entre ellas) publicó el mayor benchmark de razonamiento en vídeo hasta la fecha, y los resultados son incómodos para la industria: los humanos obtienen 0,974 sobre 1, Sora 2 llega a 0,546. Una brecha del 45% que, según los investigadores, tiene raíces arquitectónicas.

Este no es un paper más sobre benchmarks. Es una señal de que el escalado tradicional —más datos, más compute, más parámetros— está llegando a un techo en razonamiento visual.

¿Qué es el VBVR y por qué importa?

VBVR (Very Big Video Reasoning Suite) es el dataset más grande para razonamiento en vídeo publicado hasta ahora: más de dos millones de imágenes y alrededor de un millón de clips de vídeo distribuidos en 200 tareas curadas. A diferencia de benchmarks anteriores, VBVR incluye también un millón de ejemplos de entrenamiento —no solo datos de test— lo que lo hace útil tanto para evaluar como para mejorar modelos.

Las tareas están organizadas en cinco categorías cognitivas inspiradas en teorías filosóficas (de Aristóteles a Kant):

  • Abstracción — identificar patrones y reglas abstractas
  • Conocimiento — aplicar información contextual
  • Percepción — interpretar información visual en movimiento
  • Espacialidad — razonar sobre posición y orientación en el espacio
  • Transformación — predecir cómo cambian objetos o escenas con el tiempo

Cada tarea tiene una solución única verificable (no puede resolverse desde una imagen estática) y un sistema de puntuación automático que los propios investigadores verificaron contra juicios humanos, con altísima concordancia estadística.

Los resultados: Sora 2 llega a la mitad del rendimiento humano

Los números del VBVR-Bench no dejan lugar a ambigüedades:

  • Humanos: 0,974
  • Sora 2 (OpenAI): 0,546 — el mejor modelo propietario
  • Veo 3.1 (Google DeepMind): 0,480
  • Runway Gen-4 Turbo: 0,403
  • Kling 2.6 (Kuaishou): 0,369
  • Modelos open source (Wan2.2, CogVideoX, HunyuanVideo, LTX-2): entre 0,273 y 0,371

Los modelos de lenguaje cruzaron la paridad humana en muchas tareas de texto hace tiempo. En razonamiento visual sobre vídeo, estamos en la mitad del camino, y los investigadores sugieren que el camino restante es cualitativamente diferente del que ya se recorrió.

El hallazgo más importante: el fine-tuning open source gana a todo, pero también choca con un techo

El resultado más sorprendente del estudio es VBVR-Wan2.2: una versión del modelo open source Wan2.2 con fine-tuning sobre los datos de entrenamiento del VBVR. Su puntuación salta a 0,685, mejorando un 84,6% sobre el modelo base y superando a todos los modelos propietarios —incluido Sora 2.

Pero aquí viene lo importante: cuando el estudio analiza el escalado, aparece el techo. Con tareas del mismo tipo que el entrenamiento (in-domain), la performance sube hasta 0,771 con ~400.000 ejemplos de entrenamiento y entonces se detiene. Con tareas de tipos nuevos (out-of-domain), el máximo es 0,610, aún 15 puntos porcentuales por debajo del in-domain.

Los investigadores interpretan esto como un cuello de botella fundamental de arquitectura: añadir más datos del mismo tipo simplemente no empuja más el rendimiento en razonamiento genuino.

¿Por qué los modelos fallan en razonamiento visual?

El análisis cualitativo del paper revela un patrón revelador. En una tarea de eliminación de objetos, por ejemplo, Sora 2 elimina el objeto pero luego reorganiza innecesariamente el resto de la escena —cambia fondos, layouts, identidades de objetos. VBVR-Wan2.2 ejecuta solo lo que se le pide.

El problema de fondo: si un modelo reescribe libremente partes de una escena durante la generación, los estados intermedios se vuelven poco confiables. Cualquier razonamiento que dependa de esos estados intermedios falla. No es que el modelo no “entienda” la tarea —es que su arquitectura no garantiza coherencia temporal y espacial a lo largo de la generación.

El estudio también encontró correlaciones cognitivas interesantes entre capacidades:

  • Los modelos fuertes en conocimiento tienden a ser fuertes en espacialidad (similar a la relación hipocampal en neurociencia)
  • Conocimiento y percepción muestran correlación negativa: los modelos buenos en uno tienden a ser más débiles en el otro
  • Abstracción no correlaciona positivamente con ninguna otra habilidad

Por qué importa

Este estudio importa porque desmonta un supuesto que ha sido cómodo para la industria: que escalar datos y compute es suficiente para resolver cualquier problema de capacidad en IA. En texto, ese supuesto funcionó sorprendentemente bien durante años. En razonamiento visual sobre vídeo, estamos viendo sus límites.

Las implicaciones son múltiples. Para los laboratorios que construyen modelos de vídeo de próxima generación, el mensaje es que necesitan innovación arquitectónica —mecanismos de seguimiento de estado, autocorrección, coherencia temporal— no solo más GPU y más datos. Para los que usan estos modelos hoy, es una calibración realista: la IA generativa de vídeo es impresionante en muchas tareas creativas, pero su capacidad de razonamiento sofisticado es todavía muy limitada comparada con la humana.

El dato positivo es que un modelo open source con fine-tuning adecuado supera a los sistemas propietarios más avanzados. Eso sugiere que la brecha no es solo cuestión de compute o datos propietarios, sino de cómo se entrena y qué tipos de tareas se priorizan. La cancha está más abierta de lo que parece.

Todo el dataset, el benchmark y los modelos son públicos en video-reason.com.


Fuentes

¿Te interesan los límites actuales de los modelos de IA? Lee también sobre el código generado por LLMs que parece correcto pero falla en producción —otro caso de capacidades aparentes que esconden limitaciones profundas— y el análisis sobre los cuellos de botella de compute en los modelos de vídeo chinos.

Leer más

Otras noticias