RCLI (YC W26): la IA local más rápida en Apple Silicon ya tiene voz

Share

RunAnywhere (YC W26) acaba de lanzar RCLI, una herramienta de código abierto que convierte cualquier Mac con chip M3 o superior en un agente de inteligencia artificial completamente local: sin internet, sin costos por token, sin latencias de red. El proyecto trae además MetalRT, un motor de inferencia GPU propio que bate a llama.cpp, mlx-lm y Ollama en todos los benchmarks sobre Apple Silicon. Lo publicaron en Hacker News y la discusión lleva apenas horas — es nuevo ahora mismo.

La propuesta no es solo correr modelos en local. RCLI integra un pipeline completo de voz de extremo a extremo — reconocimiento (STT), razonamiento (LLM) y síntesis (TTS) — con 43 acciones nativas de macOS que puedes ejecutar por voz. Si tienes una Mac moderna, es probable que estés subutilizando el hardware más eficiente para inferencia local que existe hoy en el mercado de consumo.

¿Qué es MetalRT y por qué es más rápido?

MetalRT es un motor GPU propietario construido sobre la API Metal de Apple. A diferencia de llama.cpp o Ollama, que son soluciones de propósito general, MetalRT opera directamente sobre el hardware de los chips M-series eliminando capas de abstracción. Los benchmarks publicados por el equipo sobre un chip M4 Max con 64 GB de RAM unificada son claros:

Qwen3-0.6B: 658 tok/s en MetalRT vs. 552 en mlx-lm vs. 295 en llama.cpp
Qwen3-4B: 186 tok/s vs. 170 (mlx-lm) vs. 87 (llama.cpp)
LFM2.5-1.2B: 570 tok/s vs. 509 (mlx-lm) vs. 372 (llama.cpp)
Ollama: hasta 2.40x más lento que MetalRT en ciertos modelos

El tiempo hasta el primer token (TTFT) en Qwen3-0.6B llega a 6.6 ms — crítico para aplicaciones de voz donde cualquier delay se siente raro. Para chips M3 o anteriores, RCLI incluye soporte de respaldo vía llama.cpp sobre CPU.

Pipeline de voz: 43 acciones de macOS sin levantar las manos del teclado

El sistema integra los tres bloques del pipeline de voz y los conecta con el sistema operativo. Desde la terminal puedes:

Controlar macOS por voz: mover archivos, abrir apps, ejecutar scripts — 43 acciones nativas disponibles.
Consultar documentos locales con RAG: carga tu documentación técnica, contratos, transcripciones de llamadas y pregúntale en lenguaje natural. Los datos nunca salen de tu Mac.
Gestionar modelos: rcli models para descargar, cambiar o eliminar modelos directamente desde la terminal.
Benchmarks interactivos: un TUI (interfaz de terminal) que muestra métricas en tiempo real para comparar modelos antes de elegir arquitectura.

La latencia end-to-end completa (voz → LLM → voz) está por debajo de los 200 ms en chips M4 Max, según el equipo. Para una demo de producto o un prototipo de interfaz conversacional, eso es invisible al usuario.

Comparativa frente a las alternativas más usadas

El ecosistema de inferencia local en Mac maduró mucho en 2025-2026. La memoria unificada de los chips M-series permite correr modelos de hasta 70B parámetros en 8 bits en máquinas con 128 GB de RAM. Un chip M4 Max consume unos 50W para 15+ tok/s frente a los 600W+ de un rig con una RTX 4090. RCLI se posiciona en la cima de esa pirámide:

vs Ollama: hasta 2.40x más rápido; Ollama no tiene pipeline de voz integrado ni automatización de SO.
vs mlx-lm: MetalRT supera mlx-lm en un 10-19% y agrega voz y automatización que mlx-lm no tiene.
vs LM Studio: LM Studio tiene UI amigable pero es mucho más lento y sin automatización del sistema operativo.

El punto clave no es solo velocidad: es la integración vertical. Velocidad GPU + pipeline de voz + automatización del SO en una sola herramienta open source (MIT), sin salir de la terminal.

Lo que debes saber sobre la licencia

RCLI es open source bajo licencia MIT. Pero hay una trampa importante: MetalRT, el motor GPU que le da la ventaja de velocidad, es propietario de RunAnywhereAI. Si necesitas un motor completamente abierto para contribuir a proyectos fully open-source, esa dependencia es un factor. Para uso personal, comercial o de prototipado, no hay restricciones prácticas.

La comunidad de Hacker News ya tiene la discusión activa y hay pedidos de soporte para quants de Unsloth y más modelos de Hugging Face. El equipo, siendo YC W26, tiene incentivos para moverse rápido.

Casos de uso prácticos para quien trabaja en IA

Para quienes prototipen agentes conversacionales, RCLI elimina la dependencia de APIs externas en las fases de desarrollo. Para quienes trabajen con datos sensibles — contratos, código propietario, notas de reuniones — el RAG local elimina el riesgo de filtración. Si tienes una Mac M3+, explorar el debate sobre la dependencia de herramientas de IA en el flujo de trabajo de desarrollo te pone en contexto sobre por qué la infraestructura local importa. Y si quieres entender por qué Apple Silicon se convirtió en el mejor hardware para esto, el artículo sobre la escasez de RAM en Mac Studio y la demanda de IA local explica la cadena completa.

Por qué importa

RCLI y MetalRT son la señal más clara de que Apple Silicon ya no es solo bueno para inferencia local — es el mejor hardware de consumo para esto ahora mismo. Un equipo de YC que en 48 horas construye un motor GPU que bate a llama.cpp en 2x y a Ollama en 2.4x dice algo sobre el estado del ecosistema: la brecha entre las herramientas genéricas y las optimizadas para hardware específico se está ensanchando. Quien prototipe con un pipeline de voz local completo a 200ms de latencia tiene ventaja sobre quien depende de APIs con colas de espera, variabilidad de uptime y costos por token que se acumulan en iteraciones.

La IA local en Mac dejó de ser un experimento de entusiastas. Ya es infraestructura de producción para quienes saben qué hardware tienen.

Fuentes

Rodrigo Rojo http://descubre.ai

Tabla de contenidos [hide]

¿Qué es MetalRT y por qué es más rápido?
Pipeline de voz: 43 acciones de macOS sin levantar las manos del teclado
Comparativa frente a las alternativas más usadas
Lo que debes saber sobre la licencia
Casos de uso prácticos para quien trabaja en IA
Por qué importa
Fuentes

RCLI (YC W26): la IA local más rápida en Apple Silicon ya tiene voz

¿Qué es MetalRT y por qué es más rápido?

Pipeline de voz: 43 acciones de macOS sin levantar las manos del teclado

Comparativa frente a las alternativas más usadas

Lo que debes saber sobre la licencia

Casos de uso prácticos para quien trabaja en IA

Por qué importa

Fuentes

Tabla de contenidos [hide]

Cosmos lleva analítica tipo F1 a la minería chilena

Replit levanta $400M y ya vale $9.000 millones

Hidonix gira a defensa con IA espacial y rovers críticos

Breakout Ventures levanta $114M para ciencia impulsada por IA

IA y empleo: el golpe está en los juniors del software

Otras noticias

Cosmos lleva analítica tipo F1 a la minería chilena

Replit levanta $400M y ya vale $9.000 millones

Hidonix gira a defensa con IA espacial y rovers críticos

Breakout Ventures levanta $114M para ciencia impulsada por IA

Cosmos lleva analítica tipo F1 a la minería chilena

Replit levanta $400M y ya vale $9.000 millones

Hidonix gira a defensa con IA espacial y rovers críticos