Helios: el modelo open-weight de ByteDance que genera video en tiempo real a 19,5 FPS

Share

ByteDance acaba de lanzar Helios, un modelo de generación de video de 14.000 millones de parámetros que corre a 19,5 fotogramas por segundo en una sola GPU NVIDIA H100, soporta clips de hasta un minuto y sus pesos están disponibles al público. Si eso no te parece una gran noticia, considera que el resto de modelos de este tamaño a veces no superan 1 FPS.

Hasta ahora, la generación de video de IA en “tiempo real” era territorio exclusivo de modelos diminutos de 1.300 millones de parámetros —rápidos pero con calidad mediocre—. Los modelos grandes producían calidad decente, pero tardaban minutos en generar unos pocos segundos. Helios rompe ese compromiso: calidad de modelo grande, velocidad de modelo pequeño.

¿Qué hace a Helios tan rápido sin los trucos de siempre?

La mayoría de modelos que buscan velocidad recurren a KV-cache, sparse attention o cuantización. Helios no usa ninguno de esos mecanismos. En cambio, los investigadores —del PKU-YuanGroup y ByteDance— apostaron por comprimir agresivamente el contexto histórico en dos niveles:

  • Memoria jerárquica: los fotogramas recientes se comprimen poco; los más antiguos, mucho más. El resultado: el número de tokens a procesar se reduce ocho veces.
  • Muestreo multietapa: los primeros pasos del proceso trabajan a baja resolución; solo los últimos añaden el detalle fino. Esto recorta los tokens del segmento activo en un factor de 2,29.

Combinadas, estas dos técnicas llevan el coste computacional de generar video al nivel de generar una imagen estática. Para rematar, una etapa de destilación reduce los pasos de computación por segmento de 50 a 3 —similar a los modelos de imagen de difusión más rápidos— usando datos reales de video como contexto y un objetivo adversarial tipo GAN que supera la calidad del modelo maestro.

El problema que nadie había resuelto bien: el video largo se “derива”

Generar videos largos tiene un problema clásico: a medida que el modelo avanza en el tiempo, se desorienta. Los objetos se mueven solos, los colores cambian, aparecen artefactos de restauración. Técnicas anteriores como self-forcing o keyframe sampling intentaban corregir esto con parches complejos.

Helios identifica tres patrones de deriva típicos y propone soluciones más elegantes:

  • Position shift (movimiento repetitivo): resuelto con codificación de posición relativa, para que el modelo nunca encuentre índices desconocidos en videos largos.
  • Color shift: el primer fotograma se mantiene en memoria como ancla visual permanente, dándole al modelo una referencia estable de color.
  • Artefactos de restauración: durante el entrenamiento, el modelo se expone deliberadamente a sus propios errores mediante perturbaciones simuladas, aprendiendo a ser resistente en lugar de colapsar.

El resultado: Helios-Base lidera el ranking de calidad en videos largos con una puntuación de 6,94 en HeliosBench, superando al anterior líder Reward Forcing (6,88). Un estudio con 200 participantes humanos confirmó los números.

Una arquitectura unificada para texto, imagen y video

Helios adopta una arquitectura que fusiona tres tareas en un solo modelo:

  • Text-to-Video (T2V): genera desde cero a partir de un prompt de texto.
  • Image-to-Video (I2V): anima una imagen estática.
  • Video-to-Video (V2V): extiende o modifica un video existente.

El modelo detecta automáticamente cuál es el caso según el contexto. Si el contexto está vacío, genera desde texto. Si solo hay el último fotograma, lo anima. Si hay múltiples fotogramas, continúa el video. Además, puedes cambiar el prompt a mitad de generación y el modelo hace un crossfade gradual para evitar cortes bruscos.

El modelo fue entrenado en tres etapas usando 800.000 clips cortos de menos de diez segundos. La resolución actual es de 384×640 píxeles —no es 4K, pero suficiente para prototipado y desarrollo—. Sigue habiendo artefactos de parpadeo en las transiciones entre segmentos, y el proyecto se declara explícitamente de uso exclusivo para investigación: ByteDance no tiene planes de integrarlo en ninguno de sus productos comerciales.

Open-weight: puedes descargarlo y usarlo ahora mismo

Los pesos de Helios están disponibles en Hugging Face y el código en GitHub, junto con una demo interactiva. Hay tres variantes: Helios-Base, Helios-Mid y Helios-Distilled —esta última es la que alcanza los 19,53 FPS—. La tercera etapa del entrenamiento requiere cuatro modelos corriendo en paralelo, pero caben en 80 GB de GPU gracias a las optimizaciones de memoria.

Para comparar: SANA Video Long, un modelo de 2.000 millones de parámetros —siete veces más pequeño— solo alcanza 13,24 FPS. Krea-RealTime-14B, del mismo tamaño que Helios, se queda en 6,7 FPS y sufre de artefactos severos. Helios-Distilled supera a ambos.

Por qué importa

El video generativo ha vivido hasta ahora en dos mundos separados: calidad o velocidad, pero no ambas. Los estudios de efectos visuales y los equipos de producción no pueden esperar minutos por clip; los creadores de contenido quieren iteración rápida; los desarrolladores necesitan video en tiempo real para aplicaciones interactivas. Helios es la primera demostración creíble de que estos mundos pueden converger en un modelo de tamaño razonable.

Lo más significativo no es solo la velocidad: es que ByteDance/PKU lo libera como open-weight. En un momento donde los modelos de video más capaces son cajas negras de acceso restringido, tener un 14B de alto rendimiento disponible para la comunidad cambia qué pueden construir los equipos pequeños. El ecosistema open-source de video acaba de subir un escalón.

El límite actual de 384×640 y los artefactos en transiciones son señales de que hay trabajo por hacer. Pero la arquitectura ya resolvió los problemas duros. La resolución es ingeniería, no ciencia. La próxima versión probablemente llegue con 1080p.

Esto se conecta con la tendencia más amplia que vimos con Seedance 2.0, donde ByteDance ya demostró la musculatura técnica en generación de video. Ahora con Helios están apostando a que el video open-source puede democratizarse de la misma manera que lo hicieron los modelos de lenguaje. Si esa apuesta cuaja, los estudios de producción y los creadores independientes van a tener herramientas que hoy solo están al alcance de los grandes jugadores. Y si quieres entender qué implica eso para los flujos de trabajo de producción, el benchmark VBVR que midió el techo del razonamiento visual en modelos de video te da un buen marco de referencia.


Fuentes

Leer más

Otras noticias