Qwen3.5-27B con razonamiento de Claude: el modelo local que lidera HuggingFace

Share

Hay un modelo que lleva tres semanas en el primer lugar de tendencias en Hugging Face, y no es de OpenAI, ni de Google, ni de Anthropic. Es un fine-tune comunitario de Qwen3.5-27B entrenado con datos de razonamiento destilados desde Claude-4.6-Opus, y corre en tu máquina con 16 GB de VRAM.

El modelo se llama Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled, creado por el usuario Jackrong con el framework Unsloth, y lo interesante no es solo que exista: es lo que revela sobre cómo está evolucionando la IA local.

Qué es exactamente

La idea central es destilación de razonamiento: tomar las cadenas de pensamiento estructuradas que produce Claude-4.6-Opus —cómo descompone problemas, cómo organiza sus pasos— y usarlas como datos de entrenamiento para afinar un modelo más pequeño. El resultado hereda el estilo de razonamiento del modelo grande sin necesitar su infraestructura.

Aprende IA con nosotros

Únete gratis a mi comunidad en Skool, donde compartimos noticias, tutoriales y recursos para seguir aprendiendo juntos.

👥 Únete gratis 🚀

Técnicamente, el proceso es Supervised Fine-Tuning (SFT) con LoRA sobre Qwen3.5-27B, usando el dataset nohurry/Opus-4.6-Reasoning-3000x-filtered de Hugging Face. El entrenamiento se hizo con Unsloth 2026.3.3 (framework especializado en fine-tuning eficiente) y Transformers 5.2.0.

En la práctica, el modelo adopta un patrón de razonamiento explícito: antes de responder, procesa internamente con un esquema tipo “déjame analizar esto cuidadosamente: 1… 2… 3…”, dentro de etiquetas <think>. Es el mismo scaffold que caracteriza a los modelos de razonamiento extendido.

Por qué importa para quienes usan IA local

El Qwen3.5-27B base tiene un problema conocido: su template Jinja no soporta el rol “developer”, lo que hace que agentes de código modernos como Claude Code u OpenCode fallen o se congelen a mitad de ejecución. Este fine-tune lo corrige.

Los resultados medidos por la comunidad son concretos:

~16.5 GB VRAM con cuantización Q4_K_M — cabe en una RTX 3090 o 4090
29–35 tokens por segundo de velocidad de generación
Contexto de 262K tokens sin compromisos
Capaz de correr más de 9 minutos de forma autónoma sin intervención humana en tareas de agente, algo que el modelo base no lograba

Este último punto es clave. Un modelo que se congela a los 2 minutos de ejecución agentiva es prácticamente inútil para flujos de trabajo reales. La estabilidad mejorada viene directamente de distillar el estilo de razonamiento de Opus, que naturalmente espera respuestas de herramientas, lee outputs y se autocorrige.

El fenómeno detrás del fenómeno

Que un fine-tune comunitario lidere tendencias durante tres semanas dice algo sobre el estado del ecosistema. Hay una demanda real de modelos locales que se comporten como los mejores modelos cloud, y la comunidad está construyendo esos puentes sin esperar a los labs.

La destilación de razonamiento desde modelos propietarios hacia modelos open-weight no es nueva, pero se está acelerando. La tendencia de ejecutar modelos de IA cada vez más grandes en hardware local está creando un mercado para técnicas que hacen que ese hardware rinda más, y la destilación dirigida es una de las más efectivas.

También hay algo tácticamente importante aquí: Unsloth como framework está logrando que fine-tunings que antes requerían clústeres de GPU ahora sean accesibles para un desarrollador con una sola tarjeta. Eso democratiza el proceso de una forma que los papers académicos no capturan bien.

Cómo usarlo

El modelo está disponible en Hugging Face como Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled, con versiones GGUF para llama.cpp y Ollama. Para agentes de código, se usa directamente como reemplazo del modelo base en cualquier herramienta que soporte modelos locales mediante Ollama o LM Studio.

Vale la pena revisar las notas del modelo antes de usarlo en producción: el thinking mode está habilitado por defecto, lo que puede aumentar la latencia en tareas simples. Para queries rápidas sin razonamiento extendido, hay variantes con thinking deshabilitado.

En definitiva, es un caso de libro de lo que la comunidad open-source puede hacer cuando tiene buenos datos, buenas herramientas, y un problema concreto que resolver. El patrón de usar modelos no anunciados oficialmente para mejorar productos de IA ya no es una rareza: es parte normal del ciclo de desarrollo.

Fuentes

Rodrigo Rojo http://descubre.ai

Tabla de contenidos [hide]

Qué es exactamente
Por qué importa para quienes usan IA local
El fenómeno detrás del fenómeno
Cómo usarlo
Fuentes

Qwen3.5-27B con razonamiento de Claude: el modelo local que lidera HuggingFace

Qué es exactamente

Por qué importa para quienes usan IA local

El fenómeno detrás del fenómeno

Cómo usarlo

Fuentes

Tabla de contenidos [hide]

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial

Google despliega su inteligencia personal en Chrome y Search

Google blinda la cadena de suministro de IA con nuevas herramientas de seguridad open source

Otras noticias

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial

Google despliega su inteligencia personal en Chrome y Search

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial