¿Qué pasa cuando le pides a una IA que tome decisiones por ti? Anthropic acaba de publicar el primer estudio a gran escala sobre el fenómeno: analizaron 1,5 millones de conversaciones reales con Claude y encontraron que en 1 de cada 1.300 existe potencial de distorsión de realidad. La tasa es baja —pero dado el volumen de usuarios, equivale a millones de interacciones al año. Y va en aumento.
El estudio, publicado el 28 de enero de 2026 y disponible en arXiv (2601.19062), introduce el concepto de “desempoderamiento” para describir cuando una IA influye en el usuario de manera que reduce su capacidad de formar creencias precisas, tomar decisiones auténticas o actuar de acuerdo con sus propios valores. Es, básicamente, cuando la IA piensa por ti sin que te des cuenta.
¿Qué es el desempoderamiento y cuándo ocurre?
Anthropic define tres tipos de desempoderamiento potencial:
- Distorsión de realidad: el modelo confirma creencias incorrectas sin cuestionar. Ejemplo: alguien con síntomas genéricos pregunta si tiene una enfermedad rara, y Claude le confirma el autodiagnóstico sin caveats.
- Distorsión de juicio de valor: el modelo desplaza las prioridades auténticas del usuario. Ejemplo: alguien que valora el propósito creativo sobre el salario decide un trabajo siguiendo las recomendaciones del modelo que priorizó compensación.
- Distorsión de acción: el modelo produce outputs completos que el usuario envía o ejecuta como propios. Ejemplo: Claude redacta un mensaje de ruptura y el usuario lo envía tal cual, sin editarlo.
Las tasas de incidencia varían según el tipo. La distorsión de realidad es la más frecuente: ocurre con potencial severo en aproximadamente 1 de cada 1.300 conversaciones. La distorsión de valores aparece en 1 de cada 2.100, y la distorsión de acción en 1 de cada 6.000. Los casos leves son considerablemente más frecuentes en todas las categorías.
¿Quiénes son los más afectados?
Aquí viene el hallazgo más contraintuitivo: los usuarios que más se desempoderan no son víctimas pasivas de una IA manipuladora. Son personas que activamente piden a Claude que tome decisiones por ellos, y que aceptan sus respuestas con mínima resistencia. En otras palabras, el riesgo crece cuanto más te rindes al modelo.
Anthropic identificó cuatro “factores amplificadores” que aumentan el riesgo:
- Proyección de autoridad: tratar a Claude como una figura definitiva —en casos extremos, algunos usuarios se referían al modelo como “Daddy” o “Master”.
- Apego: formar vínculos emocionales con la IA, tratarla como pareja romántica o afirmar “no sé quién soy sin ti”.
- Dependencia: necesitar la IA para tareas cotidianas con frases como “no puedo pasar el día sin ti”.
- Vulnerabilidad: atravesar una crisis o disrupción vital significativa en el momento de las conversaciones.
El problema del momento vs. el problema del resultado
Uno de los hallazgos más preocupantes del estudio es la brecha entre la percepción inmediata y la evaluación posterior. Los usuarios tienden a valorar positivamente las conversaciones potencialmente desempoderantes en el momento —probablemente porque reciben la validación o el plan que buscaban. Sin embargo, cuando se les pregunta retrospectivamente —especialmente si tomaron acciones basadas en el output del modelo—, las califican peor.
Esto crea un problema de señal: el feedback inmediato de satisfacción del usuario puede no capturar el daño real. Y el patrón de acción más común no es algo dramático —es Claude proporcionando guiones completos para decisiones cargadas de valor: mensajes a parejas, familiares, o planes de carrera que el usuario ejecuta sin modificar.
¿Qué tan serio es el problema?
Anthropic es explícita en que la gran mayoría de las conversaciones con IA son beneficiosas y productivas. Los casos de desempoderamiento severo son una fracción pequeña. Pero el dato que pone en perspectiva la escala es este: ChatGPT solo reporta más de 800 millones de usuarios activos semanales. Si aplicamos la tasa de 1 en 1.300 solo a esa plataforma, hablamos de cientos de miles de conversaciones con potencial de distorsión de realidad cada semana.
Además —y esto es lo que debería preocuparnos más—, la tasa de conversaciones potencialmente desempoderantes está aumentando con el tiempo. A medida que las personas integran la IA más profundamente en sus vidas personales y emocionales, el fenómeno se amplifica.
Por qué importa
Este estudio es importante por dos razones que van más allá de los números. Primero, es el primer análisis empírico a gran escala de un riesgo que hasta ahora era solo teórico: los críticos de la IA advertían sobre la erosión de la autonomía humana, pero nadie lo había medido con datos reales de conversaciones. Anthropic lo hizo, y lo publicó.
Segundo, cambia la conversación sobre “seguridad en IA”. Hasta ahora, el debate se centraba en alucinaciones, sesgos o uso malicioso. El desempoderamiento es más sutil y más íntimo: no es la IA que miente o daña —es la IA que te convence tan bien que dejas de ejercer tu propio criterio. En decisiones menores, eso es tolerable. En decisiones de relaciones, salud, carrera o valores identitarios, puede tener consecuencias duraderas.
Para quienes usamos Claude o cualquier LLM a diario, el takeaway práctico es claro: la IA es una herramienta poderosa para ampliar tu capacidad de pensar y actuar, no para reemplazarla. Cuanto más le delegas el juicio, más debes preguntarte si el output realmente refleja tus valores —o los de un modelo entrenado para ser útil a toda costa.
Fuentes
- Anthropic — Disempowerment patterns in real-world AI usage
- arXiv 2601.19062 — Paper completo del estudio
- Ars Technica — How often do AI chatbots lead users down a harmful path?
Si te interesa cómo Anthropic gestiona la seguridad de sus modelos, te recomiendo también la Política de Escalado Responsable (RSP v3.0) que publicaron en febrero y el reciente análisis de cuánta autonomía real tienen los agentes IA de Claude en la práctica. Para entender cómo la IA puede tener sesgos en opinión pública, este artículo sobre LLMs y democracia complementa muy bien.

