LiteRT reemplaza a TensorFlow Lite: IA on-device sin malabarismos

Share

TensorFlow Lite tiene ya más de seis años. Se lanzó cuando los teléfonos apenas tenían NPU decente, los modelos de lenguaje grandes eran cosa de laboratorio y el ecosistema de hardware para inferencia local era básicamente: CPU lenta o GPU algo menos lenta. En enero de 2026, Google formalizó lo que llevaba un año construyendo en paralelo: LiteRT, el sucesor oficial de TFLite, que en marzo llegó a producción estable.

La diferencia no es solo de nombre. Es de arquitectura.

¿Qué es exactamente LiteRT y qué tiene de distinto?

LiteRT (abreviatura de Lite Runtime) es el framework de Google para ejecutar modelos de inteligencia artificial directamente en el dispositivo, sin enviar datos a un servidor. Su objetivo es ser el estándar universal para inferencia on-device: que el mismo código funcione en Android, iOS, Windows, macOS, Linux y web, sin reescribir el pipeline de entrenamiento.

Claude Desbloqueado

Mi curso avanzado para aprender a sacarle mucho más provecho a Claude en el trabajo y en el día a día, con funciones y usos más potentes. Comienza el 23 de marzo.

→ Inscríbete hoy 🚀

TFLite hacía algo parecido, pero mostraba sus límites con el hardware moderno. El problema concreto: los dispositivos actuales tienen CPU, GPU y NPU (unidad de procesamiento neuronal) de distintos fabricantes, con APIs completamente distintas. TFLite no sabía cómo aprovecharlas bien de forma automática.

LiteRT introduce un motor de aceleración nuevo llamado ML Drift, que gestiona la GPU con soporte nativo para OpenCL, OpenGL, Metal (Apple) y WebGPU. En Android, prioriza automáticamente OpenCL cuando está disponible y cae a OpenGL si no. El resultado medido: 1,4x más rendimiento en GPU respecto a TFLite, según el blog oficial de Google Developers.

El acelerador de Qualcomm que multiplica por 100

El detalle más llamativo del launch es la integración con QNN (Qualcomm AI Engine Direct), desarrollada en colaboración con Qualcomm. En dispositivos Snapdragon, LiteRT puede enrutar la inferencia al chip dedicado de IA y obtener hasta 100x de velocidad respecto a CPU y 10x respecto a GPU.

Esto no es teórico: los Snapdragon de gama alta tienen NPU dedicada que típicamente estaba subutilizada porque los frameworks no sabían activarla bien. LiteRT con QNN resuelve eso. El acelerador soporta 90 operaciones nativas y está optimizado especialmente para Gemma, el modelo de lenguaje pequeño de Google.

Para los desarrolladores que construyen apps con modelos de lenguaje en Android, esto significa que un Gemma 2B puede correr fluidamente en un mid-range Snapdragon 8 Gen 2 sin drenar la batería en minutos.

Compatibilidad: PyTorch, JAX, TensorFlow, y modelos generativos

TFLite solo aceptaba modelos TensorFlow. Eso era un problema porque buena parte del ecosistema de investigación vive en PyTorch.

LiteRT cambia eso: acepta PyTorch, JAX y TensorFlow sin reescribir el pipeline de entrenamiento. Incluye la API LiteRT Torch Generative específicamente para convertir modelos transformer de PyTorch, y soporte para cuantización avanzada (INT4 e INT8) para comprimir modelos y hacerlos viables en dispositivos con RAM limitada.

Esto tiene implicaciones directas para apps que quieran integrar LLMs locales: el mismo modelo que alguien entrena en PyTorch para investigación puede desplegarse on-device con LiteRT sin fricción.

¿Por qué importa esto más allá del detalle técnico?

La tendencia de fondo es hacia la IA en el dispositivo. Más privacidad (los datos no salen del teléfono), latencia cero en la respuesta, funcionamiento offline, y menor costo de infraestructura para quien desarrolla la app.

El cuello de botella hasta ahora no era el hardware —los chips lo soportan— sino la complejidad de deployment. Cada fabricante de NPU tenía su propio SDK, su propia forma de optimizar. Un developer que quería soporte real para NPU tenía que integrar SDKs distintos para Qualcomm, MediaTek, Samsung, Apple.

LiteRT apunta a ser la capa de abstracción que resuelve eso. En los mismos días en que Google bajó los precios de Gemini Flash Lite para hacer la inferencia en nube más barata, también formalizó LiteRT para que la inferencia local sea más accesible. Son dos movimientos complementarios: cloud barato y edge accesible.

Para los founders que construyen productos con IA en móviles, el mensaje es práctico: si todavía usan TFLite, los paquetes siguen funcionando pero no habrá más updates. La migración a LiteRT es el camino hacia el hardware moderno. La carrera por la IA en el dispositivo lleva tiempo acelerando, y LiteRT es la apuesta de Google por definir su estándar.


Fuentes

Leer más

Otras noticias