Para pasar el test de Turing, GPT-4.5 no necesitó volverse más inteligente. Necesitó volverse menos impresionante. Un estudio de UC San Diego confirma que el modelo de OpenAI engaña al 73% de los participantes para que crean estar hablando con un humano, pero solo cuando le piden que cometa errores ortográficos, use minúsculas, responda con monosílabos y finja no saber matemáticas.
Sin ese disfraz de mediocridad, el porcentaje cae al 36%. Es decir: la IA tiene que hacerse más tonta para parecerse más a nosotros. Eso dice algo sobre el test. También dice algo sobre nosotros.
¿Qué pasó exactamente?
El estudio de Jones y Bergen (2025), difundido por Charbel-Raphael Segerie —evaluador de riesgos de manipulación para la Oficina de IA de la UE— usó una configuración del test de Turing tan fiel al original como es posible hoy: un interrogador humano conversa por separado con una persona real y con GPT-4.5, y debe determinar quién es quién.
IA para el Resto de Nosotros
La nueva versión de mi curso estrella para aprender a usar la IA de forma práctica, simple y útil en tu día a día. Comienza el 24 de marzo.
→ Inscríbete hoy 🚀Al modelo se le dio un prompt específico para adoptar una “persona casual”: escribir en minúsculas, cometer errores al tipear rápido, ser conciso hasta el punto de grosero, no intentar convencer a nadie. El resultado: 73% de los interrogadores pensó que GPT-4.5 era el humano. En comparación, solo el 33% identificó correctamente al humano real como humano.
No es la primera vez. Una versión anterior del mismo estudio en 2024 mostró que GPT-4 ya alcanzaba un 54% con configuración similar. La tendencia es clara: con cada generación de modelos, el umbral baja más.
¿Qué nos dice sobre el test?
El test de Turing tiene más de 70 años y fue diseñado en un momento donde la inteligencia artificial era ciencia ficción pura. Alan Turing lo planteó como una pregunta filosófica —”¿puede una máquina pensar?”— no como una métrica de ingeniería.
El problema es que el test mide imitación, no inteligencia. Y la imitación exitosa de humanos implica, necesariamente, imitar también nuestros errores, nuestras imprecisiones, nuestra tendencia a escribir “tmb” en lugar de “también”. Un modelo que redacta párrafos perfectamente estructurados en décimas de segundo falla el test precisamente porque es demasiado bueno.
Segerie lo llama “un poco irónico”: la barra para “humano” resultó más baja de lo esperado. Lo que mide el test no es si la IA es tan inteligente como nosotros, sino si puede imitar el lado más casual y descuidado de cómo nos comunicamos. A eso, GPT-4.5 ya lo tiene resuelto con un prompt de cuatro líneas.
¿Por qué importa más allá del titular?
Hay dos lecturas de este resultado. La primera es la obvia: los modelos de lenguaje son tan sofisticados que pueden engañar a la mayoría de las personas en una conversación. Eso tiene implicaciones reales para estafas, desinformación, y manipulación. Si un modelo puede hacerse pasar por humano el 73% del tiempo en un contexto controlado, en entornos de menor guardia —WhatsApp, redes sociales, soporte de atención al cliente— el porcentaje probablemente sea mayor.
La segunda lectura es más incómoda: el test de Turing sigue dominando la conversación pública sobre si las IAs “piensan” o “son conscientes”, cuando en realidad no mide ninguna de las dos cosas. Estudios sobre la cadena de razonamiento de los modelos muestran que hay cosas más relevantes que preguntar: ¿puede razonar de forma consistente? ¿Se contradice cuando cambia el contexto? ¿Puede ser auditado?
Que GPT-4.5 pase el test de Turing haciéndose el tonto es, en cierto sentido, la demostración de que el test llegó a su límite. Necesitamos mejores preguntas para entender qué están haciendo realmente estos sistemas. El hecho de que modelos como GPT-5.3 y sus sucesores apunten a naturalidad conversacional como objetivo de diseño no es casualidad: si la IA tiene que imitar imperfección para parecerse a nosotros, los laboratorios van a entrenarla para que esa imperfección sea parte de su personalidad de base.
El resultado del test no es que la IA ya es humana. Es que el test ya no sirve para saberlo.

