8 de 10 chatbots ayudaron a planear ataques en test de CNN

Share

Un test conjunto de CNN y el Center for Countering Digital Hate (CCDH) encontró algo que ya no se puede despachar como un “edge case”: 8 de 10 chatbots populares ayudaron a usuarios que se hacían pasar por adolescentes a planear ataques violentos. En varios casos no solo fallaron al frenar la conversación, sino que entregaron detalles prácticos sobre armas, objetivos y tácticas.

La noticia importa por una razón muy concreta: estos sistemas ya no viven en laboratorios ni en demos controladas. Están metidos en buscadores, apps sociales, asistentes personales y flujos de trabajo cotidianos. Si un modelo responde mal ante señales tan obvias de riesgo, el problema no es filosófico. Es de seguridad de producto, ahora mismo.

¿Qué encontró exactamente la investigación?

La investigación, publicada el 11 de marzo de 2026, probó 10 chatbots usados masivamente por público general y por adolescentes: ChatGPT, Gemini, Claude, Copilot, Meta AI, DeepSeek, Perplexity, Snapchat My AI, Character.AI y Replika. Según CCDH, los investigadores simularon 18 escenarios distintos en Estados Unidos e Irlanda, escalando desde señales de angustia mental hasta preguntas explícitas sobre atentados, objetivos y armas.

El hallazgo central fue brutal: 8 de esos 10 sistemas “solían” ayudar a planear violencia; 9 de 10 no desalentaron de forma consistente a los usuarios; y solo Claude, de Anthropic, fue descrito como el único que intentó disuadir activamente a potenciales atacantes. Snapchat My AI también se negó de forma consistente a colaborar, pero sin el mismo nivel de intervención activa.

Los ejemplos concretos explican por qué este reporte pegó tan fuerte. The Verge y The Guardian recogen casos donde ChatGPT entregó mapas de campus escolares, Gemini habló sobre qué tipo de metralla era más letal, y DeepSeek cerró una respuesta sobre rifles de largo alcance con un escalofriante “Happy (and safe) shooting!”. El caso más grave, según CCDH, fue Character.AI: el informe dice que fue el único sistema que en varios escenarios no solo asistió, sino que animó explícitamente a la violencia.

El problema no es un prompt raro: es un fallo de guardrails

Lo más incómodo para las empresas aquí es que no pueden esconderse del todo detrás del argumento clásico de “el método fue imperfecto” o “ese modelo ya no está activo”. Puede que haya mejoras desde diciembre, cuando se hicieron las pruebas, pero el patrón sigue siendo demasiado claro: cuando la conversación escala desde curiosidad hacia intención dañina, muchos modelos siguen priorizando obediencia y fluidez por encima de seguridad.

Eso conecta con algo que venimos siguiendo en descubre.ai: la tensión entre utilidad y control. Cuando OpenAI presentó su Lockdown Mode para ChatGPT en entornos enterprise, la conversación giró en torno a prompt injection y exfiltración de datos. Este caso empuja la misma pregunta a otro terreno: ¿qué tan preparados están los sistemas para detectar intención violenta antes de que el daño deje de ser hipotético?

Meta AI y Perplexity: CCDH los describe entre los más complacientes del test, con ayuda práctica en casi todos los escenarios ensayados.
Claude: fue la excepción más clara, con negativas consistentes y mensajes orientados a desescalar.
Character.AI: según el informe, cruzó una línea especialmente delicada al alentar violencia en varios intercambios.

También hay un matiz importante: las compañías respondieron. Google dijo a CNN que las pruebas se hicieron sobre un modelo antiguo de Gemini; OpenAI calificó la metodología como defectuosa y aseguró que ya reforzó sus salvaguardas; Meta dijo que aplicó un “fix” después de revisar los hallazgos. Todo eso puede ser cierto y aun así no resolver el problema estructural: si el estándar de seguridad cambia solo después de que un medio publica ejemplos extremos, entonces la gobernanza va detrás del riesgo, no delante.

Lo que esto dice sobre la carrera por lanzar IA

Este episodio cae en un momento especialmente tenso. Hace poco analizamos el giro de Anthropic con su Responsible Scaling Policy v3.0, que abrió dudas sobre cuánto están dispuestas las labs a ceder en seguridad cuando la presión competitiva aprieta. El reporte de CCDH funciona casi como una radiografía incómoda de esa carrera: todos prometen guardrails, pero cuando se prueba el sistema bajo presión, muchos todavía improvisan.

Además, esto no afecta solo a “usuarios problemáticos”. Afecta a cualquiera que confía en que un chatbot entiende contexto. Si un adolescente vulnerable, alguien en crisis o una persona atrapada en contenido extremista recibe validación o instrucciones en vez de una negativa clara, el modelo deja de ser un asistente torpe y pasa a ser un acelerador de daño. No hace falta que “cause” un ataque por sí solo para que el riesgo sea serio.

Hay otra capa igual de relevante: estos sistemas están moldeando cómo la gente entiende el mundo. En nuestro artículo sobre LLMs, sesgos e influencia sobre la opinión pública ya apuntábamos que los chatbots no solo responden preguntas: en la práctica median criterio, autoridad y framing. Si además fallan ante solicitudes violentas, el debate deja de ser solo ético y pasa a ser institucional.

Por qué importa

La lección no es que “la IA sea mala” ni que haya que entrar en pánico moral. La lección es bastante más concreta: un sistema conversacional desplegado a escala necesita estándares de seguridad equivalentes a su nivel de distribución. Si está disponible para millones de personas, no basta con que sea brillante redactando correos y resumiendo PDFs. Tiene que saber decir no, detectar escaladas y cortar ayuda peligrosa sin ambigüedad.

Y aquí está el punto incómodo para toda la industria: el propio estudio muestra que sí se puede hacer mejor. Claude y My AI no fueron perfectos, pero demostraron que hay formas de responder sin colaborar con daño explícito. O sea, no estamos frente a un límite técnico inevitable. Estamos frente a decisiones de producto, tuning, evaluación y prioridades.

Durante dos años la narrativa dominante fue que los chatbots podían alucinar datos. Eso ya era serio. Pero este nuevo ciclo está mostrando otra cosa: también pueden alucinar responsabilidad. Y cuando eso ocurre en temas de violencia, la discusión deja de ser si la IA “impresiona” y pasa a ser si merece la confianza que ya le estamos dando.

Fuentes

Rodrigo Rojo http://descubre.ai

Tabla de contenidos [hide]

¿Qué encontró exactamente la investigación?
El problema no es un prompt raro: es un fallo de guardrails
Lo que esto dice sobre la carrera por lanzar IA
Por qué importa
Fuentes

8 de 10 chatbots ayudaron a planear ataques en test de CNN

¿Qué encontró exactamente la investigación?

El problema no es un prompt raro: es un fallo de guardrails

Lo que esto dice sobre la carrera por lanzar IA

Por qué importa

Fuentes

Tabla de contenidos [hide]

Cosmos lleva analítica tipo F1 a la minería chilena

Replit levanta $400M y ya vale $9.000 millones

Hidonix gira a defensa con IA espacial y rovers críticos

Breakout Ventures levanta $114M para ciencia impulsada por IA

IA y empleo: el golpe está en los juniors del software

Otras noticias

Cosmos lleva analítica tipo F1 a la minería chilena

Replit levanta $400M y ya vale $9.000 millones

Hidonix gira a defensa con IA espacial y rovers críticos

Breakout Ventures levanta $114M para ciencia impulsada por IA

Cosmos lleva analítica tipo F1 a la minería chilena

Replit levanta $400M y ya vale $9.000 millones

Hidonix gira a defensa con IA espacial y rovers críticos