AutoKernel: IA que optimiza kernels GPU mientras duermes

Share

Dale cualquier modelo PyTorch, activa el proceso y vete a dormir. Al día siguiente, AutoKernel te entrega kernels GPU optimizados en Triton sin que hayas tocado una línea de CUDA. Eso es lo que promete RightNow-AI con su nueva herramienta de autoresearch para optimización autónoma de kernels, disponible como open source bajo licencia MIT.

Para la mayoría de equipos técnicos, optimizar kernels GPU es una caja negra reservada a especialistas. AutoKernel democratiza ese proceso aplicando el mismo enfoque de agente autónomo que Andrej Karpathy popularizó con su proyecto autoresearch —pensado para experimentos de entrenamiento de LLMs— pero al dominio de la programación GPU de bajo nivel.

¿Cómo funciona el ciclo de optimización autónoma?

El pipeline de AutoKernel sigue cuatro etapas secuenciales:

  1. Profiling: analiza el modelo con torch.profiler, identifica qué kernels GPU consumen más tiempo y los clasifica como compute-bound o memory-bound.
  2. Extracción: aísla los N kernels más lentos como archivos Triton independientes.
  3. Optimización autónoma (el loop): un agente de IA modifica un único archivo (kernel.py) por iteración. Corre un benchmark con cinco fases de correctness, mide el throughput y decide: si mejoró, conserva el cambio; si empeoró o produjo resultados incorrectos, revierte automáticamente. Este ciclo se repite indefinidamente.
  4. Verificación end-to-end: al terminar, conecta los kernels optimizados de vuelta al modelo original y reporta el speedup total.

El sistema corre aproximadamente 40 experimentos por hora —unas 320 iteraciones de optimización en una noche completa. Cada experimento tarda ~90 segundos entre compilación Triton, benchmark y evaluación de correctness.

Por qué Triton y no CUDA directamente

Triton, el lenguaje de kernels GPU de OpenAI, ocupa el punto intermedio entre la API de alto nivel de PyTorch y el CUDA puro. Su sintaxis similar a Python permite al agente proponer, compilar y evaluar modificaciones en segundos en lugar de minutos. Cuando está bien afinado, Triton alcanza entre el 80% y el 95% del rendimiento de cuBLAS, la librería optimizada de NVIDIA. La diferencia ya no es astronómica, y el costo de ingeniería para llegar ahí cae drásticamente con AutoKernel.

Vale la pena aclarar: AutoKernel requiere GPU NVIDIA (probado en H100, A100 y RTX 4090) y Python 3.10+. No funciona con GPUs AMD de momento.

Qué kernels cubre y qué modelos soporta

AutoKernel incluye nueve tipos de kernel que representan las operaciones centrales del deep learning moderno:

  • matmul — multiplicación de matrices (TFLOPS)
  • flash_attention — atención con causal masking (TFLOPS)
  • fused_mlp — SwiGLU-style, el bloque MLP de LLaMA (TFLOPS)
  • softmax, layernorm, rmsnorm, rotary_embedding — operaciones de normalización y posición (GB/s)
  • cross_entropy y reduce — pérdida y reducción paralela (GB/s)

Los modelos de referencia incluyen GPT-2 Small (124M parámetros), LLaMA 7B, BERT-base (110M) y una plantilla para arquitecturas propias. También soporta modelos de HuggingFace directamente vía transformers.

La lógica de Amdahl: dónde optimizar primero

El orquestador interno aplica la Ley de Amdahl para decidir en qué kernel trabajar. Un speedup de 1.5x en un kernel que ocupa el 60% del tiempo de GPU (ganancia end-to-end: 1.25x) es más valioso que un 3x en un kernel que ocupa el 5% (ganancia end-to-end: 1.03x). Cuando los retornos son decrecientes, el orquestador pasa al siguiente kernel en la lista.

Este razonamiento hace que los experimentos converjan hacia las ganancias reales, no las métricas de vanidad. El resultado final es un reporte de speedup end-to-end sobre el modelo completo.

Este tipo de aproximación de agentes IA para optimización GPU no es nueva. ByteDance publicó CUDA Agent, un sistema de reinforcement learning que optimiza kernels GPU con RL y logró multiplicar por 2.11x el rendimiento de torch.compile en varios benchmarks. AutoKernel apunta a un público diferente: equipos sin especialistas en RL que quieren el mismo resultado vía un agente de codificación estándar (Claude, Codex o cualquier coding agent).

Casos de uso concretos para startups

¿Por qué le importa esto a un founder o CTO que no toca CUDA en su día a día?

  • Costo de inferencia: kernels más rápidos = menos tiempo de GPU por request = menor costo operativo directo. En producción con modelos propios, esto puede significar margin points reales.
  • Sin contratar especialistas: los ingenieros de kernels CUDA/Triton son escasos y caros. AutoKernel entrega parte de su valor con un coding agent y una GPU overnight.
  • Iteración rápida: el modelo de “submit and sleep” encaja en ciclos cortos de desarrollo. Se lanza antes de terminar la jornada, se revisan los resultados el día siguiente.
  • Arquitecturas nuevas: si estás construyendo herramientas de infraestructura de IA con kernels personalizados, AutoKernel acelera la exploración del espacio de optimización.

Hoy en día, todos los desarrolladores están aprendiendo a ser AI engineers —y el perfil que orquesta herramientas de IA para resolver problemas de bajo nivel es exactamente el que emerge. AutoKernel es una herramienta pensada para ese nuevo tipo de ingeniero. No necesitas saber escribir kernels; necesitas saber qué quieres optimizar y tener acceso a una GPU.

El ecosistema de RightNow-AI

AutoKernel no es un proyecto aislado. RightNow-AI mantiene un stack complementario orientado al rendimiento GPU:

  • Forge: editor de kernels GPU con asistencia de IA en tiempo real, compatible con CUDA, Triton, CUTE y TileLang, con profiling integrado.
  • OpenFang: sistema operativo de agentes open source para orquestación de tareas complejas de IA.
  • Triton para Qwen3.5-27B: kernels escritos a mano que llevan la inferencia a 92.5 tok/s single-user y 724 tok/s a batch 16 en una NVIDIA B200.

Todo el stack es MIT, lo que elimina fricción de licenciamiento para uso comercial.

Por qué importa

El cuello de botella de muchos productos de IA en producción no es el modelo en sí, sino el cómputo GPU que lo sirve. Optimizar ese cómputo requería hasta ahora años de expertise especializado. AutoKernel aplica la lógica del autonomous coding agent —que ya demostró que puede cerrar PRs y escribir tests sin supervisión— al problema de los kernels GPU.

El resultado no va a reemplazar a un equipo de kernel engineers de NVIDIA. Pero para una startup que paga $50K al mes en cómputo GPU, una mejora del 20-30% en eficiencia de kernels es la diferencia entre ser sostenible o no. Y si esa mejora viene de dejar correr un agente mientras duermes, el ROI se vuelve muy difícil de ignorar.

Lo que estamos viendo es la extensión natural de los coding agents hacia el hardware: ByteDance lo exploró con RL, Karpathy con autoresearch para entrenamiento, y RightNow-AI lo lleva a la optimización de producción. La tendencia apunta a que la programación de bajo nivel —el último bastión reservado a los especialistas— está empezando a automatizarse también.


Fuentes

Leer más

Otras noticias