Anthropic acaba de hacer disponible de forma general la ventana de contexto de 1 millón de tokens para Claude Opus 4.6 y Claude Sonnet 4.6, y lo más importante no es el número: es que ahora viene sin costo adicional. Un request de 900.000 tokens se factura exactamente igual por token que uno de 9.000.
Hasta hoy, acceder a la ventana larga requería un encabezado beta especial y tenía restricciones extra. Desde el 13 de marzo de 2026, desaparece la complejidad: si tus requests superan los 200K tokens, el sistema los procesa automáticamente sin que necesites cambiar una sola línea de código.
¿Qué cambia exactamente con la disponibilidad general?
Cuatro cosas concretas que importan si usas la API o construyes sobre Claude:
- Un solo precio para todo el contexto: Claude Opus 4.6 cuesta $5 por millón de tokens de entrada y $25 por millón de salida, sin importar si usas 10K o 900K tokens. Sonnet 4.6 queda en $3/$15. No hay multiplicador por contexto largo.
- Rate limits completos en cualquier longitud: el throughput estándar de tu cuenta aplica en todo el espectro. Nada de límites reducidos para requests largos.
- Hasta 600 imágenes o páginas PDF por request: antes el límite era 100. El salto es de 6x, habilitando casos de uso como análisis de expedientes médicos completos o auditorías de documentación legal extensa.
- Sin header beta: si ya lo estás enviando, se ignora. Si no lo estabas enviando, ya funciona igual.
Claude Code: el caso de uso más directo
Para los usuarios de Claude Code con plan Max, Team o Enterprise, Opus 4.6 ahora usa 1M de contexto de forma automática. Eso significa menos compactaciones en medio de sesiones largas, algo que cualquiera que haya perdido el hilo de una sesión extensa de debugging va a apreciar de inmediato.
Anton Biryukov, ingeniero de software que trabaja con la herramienta, lo describe así: “Claude Code puede quemar más de 100K tokens buscando en Datadog, Braintrust, bases de datos y código fuente. Luego llega la compactación y los detalles desaparecen. Con 1M de contexto puedo buscar, rebuscar, agregar casos borde y proponer fixes, todo en una sola ventana”.
La compañía entregó métricas sobre la calidad del modelo en contextos largos: Opus 4.6 obtiene 78,3% en MRCR v2 a 1M tokens, y Sonnet 4.6 alcanza 68,4% en GraphWalks BFS a esa misma longitud. Ambos son los números más altos entre los modelos frontera a esa extensión de contexto, según Anthropic.
¿Qué puedes cargar ahora en un solo prompt?
Un millón de tokens equivale aproximadamente a:
- Un codebase completo: la mayoría de proyectos medianos entran en ese espacio, lo que permite análisis cross-file sin necesidad de chunking manual.
- Cientos de páginas de contratos o expedientes legales: sin perder el contexto entre documentos relacionados.
- El historial completo de un agente de larga duración: tool calls, observaciones, razonamiento intermedio, todo junto.
- Múltiples PDFs científicos o bases de datos de investigación: para síntesis en un solo pase.
Un equipo de startups confirmó una reducción del 15% en eventos de compactación después de migrar a Opus 4.6 con 1M de contexto, con sus agentes corriendo por horas “sin olvidar lo que leyeron en la página uno”, según Jon Bell, CPO de la compañía.
Disponibilidad: dónde funciona hoy
La ventana de 1M tokens está disponible en:
- Claude Platform (nativo)
- Amazon Bedrock
- Google Cloud Vertex AI
- Microsoft Azure Foundry
Si ya usas Claude Cowork para organizar archivos y flujos de trabajo, este cambio amplía significativamente lo que puedes pedirle en una sola sesión. Y si tienes Claude Code integrado en tu equipo, la actualización llega automática sin configurar nada.
Vale notar que en la plataforma de chat (claude.ai), el plan Max ya listaba Opus 4.6 con 1M de contexto como opción separada con “extra usage”. Con la GA, esa separación desaparece en la API; en los planes de chat, la dinámica puede variar.
Por qué importa
La ventana de contexto larga siempre fue técnicamente impresionante, pero prácticamente cara o complicada de usar. Eliminar el overhead de precio y la configuración especial lo convierte en el nuevo estándar de facto para qualquier flujo de trabajo con documentos largos o codebases completos.
El cambio más interesante no es el número de tokens: es que las herramientas de IA que antes requerían arquitecturas complejas de chunking, resumen lossy o memorias externas para manejar contextos grandes, ahora pueden simplificarse considerablemente. Menos ingeniería de prompt engineering defensivo, más atención al problema real.
Para productos construidos sobre Claude en sectores como legal, medicina o desarrollo de software, esto no es una feature incremental: es una rearquitectura posible de cómo se diseñan los agentes.
También te puede interesar: Claude ya puede generar gráficos interactivos directo en el chat y Claude con memoria persistente: qué cambia para emprendedores.

