DeepMind quiere medir el progreso hacia la AGI con ciencia cognitiva

Share

¿A qué distancia estamos de la AGI? Nadie lo sabe con certeza, y eso es exactamente el problema que Google DeepMind quiere resolver. Esta semana publicó un paper y lanzó un hackathon de $200.000 con una tesis provocadora: si no tenemos herramientas científicas para medir el progreso hacia la inteligencia general, nunca vamos a saber cuándo llegamos ni cuándo nos estamos acercando peligrosamente.

El paper, “Measuring Progress Toward AGI: A Cognitive Taxonomy”, propone un framework estructurado en diez capacidades cognitivas que los autores hipotetizan como necesarias para la inteligencia general. La novedad no está en la lista sino en el rigor metodológico: en vez de comparar modelos entre sí, el framework los mide contra baselines humanos representativos. Eso cambia bastante cómo se interpreta el progreso.

¿Qué mide exactamente el framework?

Las diez capacidades que DeepMind identifica vienen de décadas de psicología, neurociencia y ciencias cognitivas: percepción, generación, atención, aprendizaje, memoria, razonamiento, metacognición, funciones ejecutivas, resolución de problemas, y cognición social.

IA para el Resto de Nosotros

La nueva versión de mi curso estrella para aprender a usar la IA de forma práctica, simple y útil en tu día a día. Comienza el 24 de marzo.

→ Inscríbete hoy 🚀

La apuesta metodológica es en tres pasos: evaluar sistemas de IA en tareas específicas de cada capacidad con conjuntos de prueba no expuestos en entrenamiento, recopilar baselines humanos de una muestra demográficamente representativa, y mapear el desempeño del modelo en relación con la distribución de rendimiento humano.

Este enfoque resuelve algo que los benchmarks actuales no resuelven bien: el problema de comparación circular. Cuando GPT-5.4 supera a GPT-5.3 en un benchmark, sabemos que mejoró, pero no sabemos qué significa eso en términos de inteligencia real. Al anclar las mediciones en desempeño humano representativo, el framework ofrece una escala con significado externo.

¿Por qué importa más de lo que parece?

El paper no es un ejercicio académico neutro. DeepMind lo publica en un momento en que los debates sobre AGI han pasado de ser especulativos a tener consecuencias regulatorias concretas. La Unión Europea está definiendo umbrales de riesgo para sistemas de IA. EE.UU. está debatiendo restricciones a exportaciones de chips. Varios países discuten qué nivel de autonomía es aceptable en sistemas militares. En todos esos debates, la pregunta implícita es: ¿qué tan avanzados están estos sistemas realmente?

Sin métricas científicas consensuadas, esa pregunta se responde con marketing, lobbying o miedo. Un framework riguroso no elimina el debate político, pero lo ancla en algo verificable.

Hay también una honestidad intelectual notable en el paper: DeepMind identifica explícitamente cinco capacidades donde la brecha de evaluación es más grande. Precisamente esas cinco —aprendizaje, metacognición, atención, funciones ejecutivas y cognición social— son las que el hackathon invita a comunidad a ayudar a evaluar. Eso es admitir públicamente que no tienes todas las respuestas, algo inusual en el ecosistema de IA donde las empresas tienden a proyectar certeza.

El modelo humano como referencia: qué cambia

La decisión de usar baselines humanos representativos en vez de promedios o expertos específicos es metodológicamente importante. La mayoría de los benchmarks actuales comparan modelos contra sí mismos o contra benchmarks académicos diseñados para especialistas. Eso distorsiona la evaluación: un modelo puede ser brillante en matemáticas olímpicas y terrible razonando sobre situaciones sociales cotidianas, y los benchmarks actuales no capturan esa asimetría de forma que sea útil para predecir desempeño real.

Al mapear cada capacidad contra una distribución humana representativa, el framework permite preguntas más precisas: ¿el modelo supera al percentil 50 de humanos en metacognición? ¿Está cerca del percentil 90 en razonamiento lógico pero en el percentil 20 en cognición social? Ese tipo de perfil multidimensional cuenta una historia muy diferente a “Claude superó a GPT en el benchmark X”.

La preocupación por medir AGI de forma rigurosa conecta directamente con debates más amplios sobre seguridad de IA. Anthropic publicó su RSP v3.0 precisamente porque reconoce que necesita criterios objetivos para determinar cuándo activar salvaguardas adicionales. El framework de DeepMind no está diseñado para eso específicamente, pero el problema raíz es el mismo: sin métricas científicas, las decisiones de gobernanza son inevitablemente arbitrarias.

El hackathon: comunidad como motor de evaluación

La pieza más práctica del anuncio es el hackathon en Kaggle, abierto hasta el 16 de abril. DeepMind no tiene las evaluaciones perfectas para las cinco capacidades más difíciles de medir, así que en vez de esperar a tenerlas internamente, abre el problema a la comunidad investigadora global.

El premio total es $200.000: $10.000 para los dos mejores envíos en cada una de las cinco categorías (aprendizaje, metacognición, atención, funciones ejecutivas, cognición social), y $25.000 para los cuatro mejores envíos globales. Los participantes pueden probar sus evaluaciones contra modelos frontier usando la plataforma Community Benchmarks de Kaggle. Los resultados se anuncian el 1 de junio.

Esto es inteligente desde el punto de vista de investigación distribuida: las evaluaciones más difíciles son las que requieren más diversidad de perspectivas. Cognición social, por ejemplo, varía significativamente entre culturas. Diseñar evaluaciones que capturen esa variación es un problema donde la comunidad global tiene una ventaja real sobre cualquier equipo centralizado.

Por qué importa

La pregunta de cuándo llegamos a AGI —o si ya estamos cerca— es demasiado importante para dejársela a los comunicados de prensa de las empresas. Lo que DeepMind propone es una metodología científica consensuada que permita responderla con datos en vez de narrativas.

Que llegue precisamente ahora, cuando el debate sobre regulación de IA se está formalizando en múltiples jurisdicciones y cuando la interpretabilidad de los modelos está bajo un escrutinio sin precedentes, no parece coincidencia. Un framework para medir progreso hacia AGI es también, implícitamente, un argumento sobre quién debería definir qué cuenta como AGI y bajo qué criterios. Esa conversación acaba de volverse más técnica y más pública al mismo tiempo.


Fuentes

Leer más

Otras noticias