Claude Sonnet 4.6: rendimiento de élite a un quinto del precio de Opus

Share

Anthropic acaba de democratizar la IA de élite: su nuevo modelo Claude Sonnet 4.6 iguala —y en algunos casos supera— a su buque insignia Opus 4.6 en las tareas que más le importan a las empresas, pero a un quinto del precio. Esto no es un ajuste incremental; es una ruptura de precios que cambia el cálculo de toda la industria.

Lanzado el 17 de febrero de 2026, Sonnet 4.6 es la actualización más completa de la serie Sonnet: mejor código, mejor uso del computador, razonamiento de contexto largo, planificación de agentes y una ventana de contexto de 1 millón de tokens en beta. Y todo esto al mismo precio que su predecesor: $3/$15 por millón de tokens de entrada/salida — frente a los $15/$75 que cuesta Opus.

¿Qué tan bueno es Sonnet 4.6 realmente?

Los números son contundentes. En los benchmarks que definen la IA útil hoy:

  • SWE-bench Verified (coding real): 79,6% — frente al 80,8% de Opus 4.6. Prácticamente empatados.
  • OSWorld-Verified (uso de computador): 72,5% — frente al 72,7% de Opus. La diferencia es de dos décimas.
  • GDPval-AA Elo (tareas de oficina del mundo real): 1.633 puntos — supera a Opus 4.6 que logra 1.606.
  • Análisis financiero agéntico: 63,3% — también supera a Opus (60,1%).

Para que se entienda la magnitud: una empresa corriendo agentes de IA que procesan 10 millones de tokens diarios pagaba antes $150/día para usar Opus. Con Sonnet 4.6, esa misma carga cuesta $30. Con rendimiento equivalente o superior.

El salto del uso de computador: de 14,9% a 72,5% en 16 meses

El caso más llamativo es el computer use —la capacidad del modelo de controlar un computador como lo haría una persona: moviendo el mouse, escribiendo en el teclado, navegando por Chrome, usando LibreOffice o VS Code, sin APIs especiales ni conectores a medida.

Cuando Anthropic lanzó esta función en octubre de 2024, el score en OSWorld era 14,9%. Con Sonnet 4.6, llega a 72,5%. Casi quintuplica el resultado original. Y prácticamente dobla el 38,2% de GPT-5.2 en el mismo benchmark.

Los usuarios que tienen acceso anticipado reportan rendimiento de nivel humano en tareas como navegar hojas de cálculo complejas o completar formularios web de múltiples pasos. El modelo todavía no iguala a los humanos más hábiles con computadores, pero la trayectoria es notable.

¿A quién le cambia la vida esto?

Principalmente a los equipos que construyen con la API de Anthropic a escala. Claude Code —la herramienta de terminal para desarrolladores de Anthropic— se convirtió en un fenómeno cultural en Silicon Valley durante los últimos meses: The New York Times lo perfiló en enero de 2026, The Verge declaró que está viviendo un “momento” real. Empresas enteras están construyendo aplicaciones mediante conversación en lenguaje natural.

Para todos esos casos de uso agénticos, el modelo no se evalúa aislado. Se evalúa como el motor de sistemas autónomos que corren durante horas, hacen miles de llamadas a herramientas, escriben y ejecutan código, navegan navegadores e interactúan con software empresarial. En ese contexto, la diferencia entre $15 y $3 por millón de tokens no es marginal. Es transformacional.

En cuanto a los usuarios normales: Sonnet 4.6 es ahora el modelo por defecto en claude.ai para los planes Free y Pro. Si usas Claude todos los días, ya tienes el modelo nuevo.

Seguridad: mejor resistencia a prompt injection

Un aspecto no menor: Anthropic ha estado trabajando en mejorar la resistencia de sus modelos a los ataques de prompt injection —cuando sitios web maliciosos intentan secuestrar al modelo escondiendo instrucciones en el contenido que ve. Las evaluaciones de seguridad muestran que Sonnet 4.6 es una mejora sustancial sobre Sonnet 4.5 en este aspecto, y tiene un rendimiento similar a Opus 4.6. Anthropic describe el carácter del modelo como “cálido, honesto, prosocial y a veces gracioso, con comportamientos de seguridad muy sólidos.”

Por qué importa

Esta es una jugada clásica de commoditización acelerada: el rendimiento de élite cae de precio tan rápido que lo que era privilegio exclusivo de las grandes empresas se convierte en estándar accesible para cualquier startup. Anthropic está apostando a que a mayor volumen de uso (gracias al precio bajo), mayor ingreso total. Y están poniendo presión sobre OpenAI, que tiene GPT-5.2 con menos de la mitad del score en computer use.

Para quienes construyen con IA en LATAM —donde el presupuesto importa especialmente— esta reducción efectiva de costos es buena noticia. No necesitas gastar en Opus para tener capacidades de nivel Opus en las tareas que realmente importan: código, agentes, análisis. Si ya estabas usando Sonnet 4.5, tienes una actualización gratuita que en muchos casos es mejor que el modelo más caro de noviembre pasado. Si todavía dudabas en escalar por costos, ese argumento se debilitó bastante hoy.


Fuentes

Leer más

Otras noticias