Los datos de texto para entrenar IA se acaban: Meta apuesta por video sin etiquetar

Share

Los datos de texto de alta calidad para entrenar modelos de lenguaje se están acabando. Eso ya no es especulación: es la conclusión de un nuevo paper de Meta FAIR y la Universidad de Nueva York. La solución que propone el equipo —que incluyó a Yann LeCun antes de que dejara la empresa— puede redefinir cómo se construye la próxima generación de IA: usar video sin etiquetar como fuente masiva de entrenamiento.

El paper se llama “Beyond Language Modeling” (arXiv 2603.03276) y entrena un modelo multimodal desde cero, sin reutilizar ningún LLM previo. El resultado derriba varios supuestos que el campo daba por sentados.

¿Por qué el texto está llegando a su límite?

Los investigadores parten de una premisa filosófica: el lenguaje es una compresión con pérdida de la realidad. Citando la alegoría de la caverna de Platón, argumentan que los LLMs aprenden a describir las sombras en la pared sin ver los objetos que las proyectan. Y además, hay un problema práctico concreto: el texto de alta calidad disponible en internet es finito, y los modelos ya lo han consumido casi en su totalidad.

Ahí entra el video. Hay millones de horas de video no etiquetado en internet —sin transcripciones, sin anotaciones, sin pares texto-imagen— y el paper demuestra que ese video sí puede mejorar las capacidades de un modelo sin degradar su rendimiento en lenguaje. De hecho, en el conjunto de validación, el modelo entrenado con texto y video supera ligeramente al baseline solo-texto.

Un encoder visual que hace todo: entender y generar

Uno de los hallazgos más concretos tiene que ver con la arquitectura propuesta. Los enfoques anteriores —como Janus o BAGEL— usaban encoders visuales separados para comprensión e imagen generativa. El equipo de Meta descubrió que esa separación no es necesaria.

Representation Autoencoder (RAE): construido sobre SigLIP 2, supera a los encoders VAE convencionales tanto en generación como en comprensión visual, sin perjudicar el rendimiento en lenguaje.
Un solo encoder, dos tareas: comprensión de imágenes y generación de imágenes activan los mismos expertos internos del modelo, con una correlación de al menos 0.90 en todas las capas. La separación era un supuesto, no una necesidad arquitectónica.
Mixture-of-Experts (MoE): el modelo tiene 13.500 millones de parámetros totales pero solo activa 1.500 millones por token. Se especializa solo —capas tempranas dominadas por expertos de texto, capas profundas con expertos visuales y multimodales— sin diseño manual previo.

El video sin texto no daña al lenguaje — y con texto, ayuda

Este es el dato más contraintuitivo del paper. Añadir video crudo (sin texto adjunto) al entrenamiento no deteriora las capacidades lingüísticas del modelo. Lo que introduce algo de ruido son los pares imagen-texto, pero el problema no es la modalidad visual en sí, sino la distribución diferente entre el texto normal y las descripciones de imágenes.

La sinergia es notable: 20.000 millones de tokens de VQA (respuesta a preguntas visuales) complementados por 80.000 millones de tokens de video, pares imagen-texto o texto plano superan a un modelo entrenado con 100.000 millones de tokens de VQA puro. Diversidad de modalidades bate cantidad en una sola.

World modeling emerge sin entrenarlo explícitamente

El equipo también probó si el modelo podía predecir estados visuales: dada una imagen actual y una instrucción de navegación (“sal de la sombra”), el modelo debía predecir el siguiente estado visual. Esa capacidad de modelado del mundo emergió del entrenamiento multimodal general, no de datos específicos de navegación. Con apenas el 1% de datos específicos para esa tarea, el modelo alcanza rendimiento competitivo.

En términos simples: el modelo aprendió a “imaginar qué pasa a continuación” sin que nadie le enseñara explícitamente. Eso es lo que los investigadores llaman world modeling, y es una capacidad que se busca activamente para construir agentes de IA más robustos.

Por qué importa

El campo de la IA lleva años enfrentando el problema del “peak data”: los datasets de texto de calidad se agotan. Hasta ahora, las soluciones principales eran datos sintéticos (generados por el propio modelo) o datos propietarios. Meta propone una tercera vía: el video sin etiquetar, que existe en cantidades prácticamente ilimitadas en YouTube, TikTok e Instagram.

Las implicaciones son grandes. Si el video funciona como fuente de entrenamiento sin necesidad de etiquetado humano, el cuello de botella del escalado cambia radicalmente: ya no es “cuánto texto de calidad existe” sino “cuánto cómputo puedes dedicar a procesar video”. Eso favorece a quien tiene más infraestructura de video —que, irónicamente, incluye a Meta con Instagram y Facebook, y a Google con YouTube.

Para el ecosistema de modelos generativos, esto también es relevante. ByteDance lleva semanas publicando modelos de video open-weight como Helios y Seedance 2.0, y benchmarks como VBVR muestran que el razonamiento visual en video sigue siendo el mayor cuello de botella de la IA actual. Si el video sin etiquetar resulta ser el ingrediente faltante para los modelos multimodales del futuro, la carrera por ese recurso acaba de empezar — y Meta se acaba de poner al frente.

Fuentes

Rodrigo Rojo http://descubre.ai

Tabla de contenidos [hide]

¿Por qué el texto está llegando a su límite?
Un encoder visual que hace todo: entender y generar
El video sin texto no daña al lenguaje — y con texto, ayuda
World modeling emerge sin entrenarlo explícitamente
Por qué importa
Fuentes

Los datos de texto para entrenar IA se acaban: Meta apuesta por video sin etiquetar

¿Por qué el texto está llegando a su límite?

Un encoder visual que hace todo: entender y generar

El video sin texto no daña al lenguaje — y con texto, ayuda

World modeling emerge sin entrenarlo explícitamente

Por qué importa

Fuentes

Tabla de contenidos [hide]

Transformer Explainer: aprende cómo funciona GPT-2 en tu navegador

Humanoides 2026: Agility, Boston Dynamics y ASTM debaten seguridad

Ford Pro AI: chatbot IA para flotas llega a 840.000 gestores comerciales

Rebasing en Magit: limpia el historial de git con un teclazo

68% de empresas ya paga un 10% más de electricidad por la IA

Otras noticias

Transformer Explainer: aprende cómo funciona GPT-2 en tu navegador

Humanoides 2026: Agility, Boston Dynamics y ASTM debaten seguridad

Ford Pro AI: chatbot IA para flotas llega a 840.000 gestores comerciales

Rebasing en Magit: limpia el historial de git con un teclazo

Transformer Explainer: aprende cómo funciona GPT-2 en tu navegador

Humanoides 2026: Agility, Boston Dynamics y ASTM debaten seguridad

Ford Pro AI: chatbot IA para flotas llega a 840.000 gestores comerciales