Los datos de texto de alta calidad para entrenar modelos de lenguaje se están acabando. Eso ya no es especulación: es la conclusión de un nuevo paper de Meta FAIR y la Universidad de Nueva York. La solución que propone el equipo —que incluyó a Yann LeCun antes de que dejara la empresa— puede redefinir cómo se construye la próxima generación de IA: usar video sin etiquetar como fuente masiva de entrenamiento.
El paper se llama “Beyond Language Modeling” (arXiv 2603.03276) y entrena un modelo multimodal desde cero, sin reutilizar ningún LLM previo. El resultado derriba varios supuestos que el campo daba por sentados.
¿Por qué el texto está llegando a su límite?
Los investigadores parten de una premisa filosófica: el lenguaje es una compresión con pérdida de la realidad. Citando la alegoría de la caverna de Platón, argumentan que los LLMs aprenden a describir las sombras en la pared sin ver los objetos que las proyectan. Y además, hay un problema práctico concreto: el texto de alta calidad disponible en internet es finito, y los modelos ya lo han consumido casi en su totalidad.
Ahí entra el video. Hay millones de horas de video no etiquetado en internet —sin transcripciones, sin anotaciones, sin pares texto-imagen— y el paper demuestra que ese video sí puede mejorar las capacidades de un modelo sin degradar su rendimiento en lenguaje. De hecho, en el conjunto de validación, el modelo entrenado con texto y video supera ligeramente al baseline solo-texto.
Un encoder visual que hace todo: entender y generar
Uno de los hallazgos más concretos tiene que ver con la arquitectura propuesta. Los enfoques anteriores —como Janus o BAGEL— usaban encoders visuales separados para comprensión e imagen generativa. El equipo de Meta descubrió que esa separación no es necesaria.
- Representation Autoencoder (RAE): construido sobre SigLIP 2, supera a los encoders VAE convencionales tanto en generación como en comprensión visual, sin perjudicar el rendimiento en lenguaje.
- Un solo encoder, dos tareas: comprensión de imágenes y generación de imágenes activan los mismos expertos internos del modelo, con una correlación de al menos 0.90 en todas las capas. La separación era un supuesto, no una necesidad arquitectónica.
- Mixture-of-Experts (MoE): el modelo tiene 13.500 millones de parámetros totales pero solo activa 1.500 millones por token. Se especializa solo —capas tempranas dominadas por expertos de texto, capas profundas con expertos visuales y multimodales— sin diseño manual previo.
El video sin texto no daña al lenguaje — y con texto, ayuda
Este es el dato más contraintuitivo del paper. Añadir video crudo (sin texto adjunto) al entrenamiento no deteriora las capacidades lingüísticas del modelo. Lo que introduce algo de ruido son los pares imagen-texto, pero el problema no es la modalidad visual en sí, sino la distribución diferente entre el texto normal y las descripciones de imágenes.
La sinergia es notable: 20.000 millones de tokens de VQA (respuesta a preguntas visuales) complementados por 80.000 millones de tokens de video, pares imagen-texto o texto plano superan a un modelo entrenado con 100.000 millones de tokens de VQA puro. Diversidad de modalidades bate cantidad en una sola.
World modeling emerge sin entrenarlo explícitamente
El equipo también probó si el modelo podía predecir estados visuales: dada una imagen actual y una instrucción de navegación (“sal de la sombra”), el modelo debía predecir el siguiente estado visual. Esa capacidad de modelado del mundo emergió del entrenamiento multimodal general, no de datos específicos de navegación. Con apenas el 1% de datos específicos para esa tarea, el modelo alcanza rendimiento competitivo.
En términos simples: el modelo aprendió a “imaginar qué pasa a continuación” sin que nadie le enseñara explícitamente. Eso es lo que los investigadores llaman world modeling, y es una capacidad que se busca activamente para construir agentes de IA más robustos.
Por qué importa
El campo de la IA lleva años enfrentando el problema del “peak data”: los datasets de texto de calidad se agotan. Hasta ahora, las soluciones principales eran datos sintéticos (generados por el propio modelo) o datos propietarios. Meta propone una tercera vía: el video sin etiquetar, que existe en cantidades prácticamente ilimitadas en YouTube, TikTok e Instagram.
Las implicaciones son grandes. Si el video funciona como fuente de entrenamiento sin necesidad de etiquetado humano, el cuello de botella del escalado cambia radicalmente: ya no es “cuánto texto de calidad existe” sino “cuánto cómputo puedes dedicar a procesar video”. Eso favorece a quien tiene más infraestructura de video —que, irónicamente, incluye a Meta con Instagram y Facebook, y a Google con YouTube.
Para el ecosistema de modelos generativos, esto también es relevante. ByteDance lleva semanas publicando modelos de video open-weight como Helios y Seedance 2.0, y benchmarks como VBVR muestran que el razonamiento visual en video sigue siendo el mayor cuello de botella de la IA actual. Si el video sin etiquetar resulta ser el ingrediente faltante para los modelos multimodales del futuro, la carrera por ese recurso acaba de empezar — y Meta se acaba de poner al frente.

