M5 Max vs. Threadripper de 96 núcleos: lo que el benchmark no te está diciendo

Share

Un benchmark filtrado de Tom’s Hardware generó revuelo esta semana: el Apple M5 Max de apenas 18 núcleos aparecía superando al AMD Ryzen Threadripper Pro 9995WX de 96 núcleos en Geekbench 6 multicore. El titular fue explosivo. Los reposts, inmediatos. Pero hay un problema grave con la interpretación: Geekbench 6 no está diseñado para medir chips de alta densidad de núcleos, y sus resultados multicore para procesadores de más de 32 núcleos son estructuralmente engañosos.

Antes de tomar decisiones de compra de hardware o actualizar tu stack de workstations basándote en ese número, vale la pena entender qué está midiendo realmente ese benchmark y por qué el resultado no dice lo que parece decir.

¿Qué dijo exactamente el benchmark filtrado?

Según el reporte de Tom’s Hardware, datos no confirmados de Geekbench 6 muestran al M5 Max con un score multicore de aproximadamente 29.233, superando no solo al M3 Ultra de 32 núcleos (27.726) sino también al Threadripper Pro 9995WX de 96 núcleos. NotebookCheck confirmó que incluso el Threadripper 9980X de 64 núcleos queda apenas 6,6% por debajo del M5 Max en este benchmark específico.

Los resultados siguen siendo filtrados y no confirmados oficialmente. Apple no ha lanzado el Mac Studio M5 aún, por lo que cualquier dato de Geekbench en circulación proviene de fuentes externas y debe tratarse con escepticismo adicional.

El problema de fondo: Geekbench 6 y los chips de muchos núcleos

Geekbench 6 fue diseñado primariamente para evaluar procesadores de uso cotidiano: laptops, desktops de consumo, chips de hasta 16 a 32 núcleos. Su modelo de medición multicore, llamado shared task, pone a todos los hilos a colaborar sobre una misma tarea grande en lugar de asignarles tareas independientes como hacía Geekbench 5. Eso introduce un problema estructural severo cuando el procesador tiene muchos núcleos.

El resultado, documentado por múltiples análisis técnicos independientes como el de ServeTheHome, es que Geekbench 6 prácticamente deja de escalar a partir de los 32-64 núcleos. En procesadores de 96, 128 o 180 núcleos, el puntaje multicore no representa el potencial real del chip: se estanca en una ganancia de apenas 10-12 veces el rendimiento de un solo núcleo, sin importar cuántos núcleos adicionales tenga el procesador.

Las razones técnicas son concretas:

Thrashing de caché L3: A mayor número de núcleos, más presión sobre el caché compartido. En tareas como compresión de archivos, la tasa de fallos L3 puede llegar al 46%, destruyendo la eficiencia paralela.
Cuellos de botella seriales: La Ley de Amdahl establece que cualquier porción no paralelizable del código limita el escalado total. Geekbench 6 tiene porciones seriales significativas.
Workloads hardcodeados: Algunas tareas multicore están diseñadas para escalar a 4 veces el tamaño del test de un solo núcleo, ignorando completamente los núcleos adicionales del procesador.
Límites térmicos: En procesadores de alta densidad de núcleos, el benchmark puede provocar condiciones de throttling que reducen artificialmente el puntaje.

Geekbench 5 vs. Geekbench 6: el cambio que explica todo

Esta distinción es crítica. En Geekbench 5, el modelo de tareas independientes permitía que un procesador de 180 núcleos obtuviera hasta 63 veces el rendimiento de un solo núcleo en la prueba multicore, reflejando mejor el potencial real del hardware paralelo. En Geekbench 6, ese mismo procesador de 180 núcleos apenas alcanza 10-12 veces el rendimiento de un núcleo.

El chip no empeoró. El benchmark cambió su forma de medir. Un Xeon de 512 hilos mostraba niveles absurdamente bajos de utilización dentro de Geekbench 6, algo que cualquier técnico con experiencia en HPC reconoce inmediatamente como un artefacto de medición, no una realidad de rendimiento.

¿Qué significa realmente el score del M5 Max?

Que el M5 Max sea extraordinario en Geekbench 6 tiene lógica perfecta. Apple Silicon está optimizado para cargas de trabajo que caben eficientemente en su caché, con núcleos de alto rendimiento individual y una arquitectura de memoria unificada que reduce la latencia de forma dramática. Geekbench 6 mide bien eso. El problema es la comparación directa contra un Threadripper de 96 núcleos diseñado para cargas masivamente paralelas.

En benchmarks más representativos para workloads de alta densidad de núcleos, el Threadripper Pro 9995WX arrasa en renderizado batch con Cinebench R23/R24, compilaciones masivas de código, simulaciones científicas y pipelines de data science que requieren paralelismo real. El M5 Max no compite en ese terreno porque no está diseñado para hacerlo.

¿Qué benchmarks sí son válidos para tomar decisiones de hardware?

Si necesitas evaluar hardware para tu equipo o startup, estos son los benchmarks con mayor validez según el caso de uso:

Cinebench R23 / R24: Renderizado 3D altamente paralelizable, excelente para ver el escalado real de núcleos en workloads creativos.
SPEC CPU 2017: Estándar de la industria para comparativas científicas y de ingeniería con carga de trabajo realista.
Benchmarks de aplicación específica: Compilar tu propio código, ejecutar tu pipeline de ML, procesar tu workload real. Nada supera medir lo que tu equipo necesita hacer.
Geekbench 6 single-core: Sigue siendo confiable para medir el rendimiento de un solo núcleo tanto en el M5 Max como en el Threadripper, donde la comparación tiene sentido.

Por qué importa

El episodio del M5 Max vs. Threadripper ilustra un problema recurrente en la industria tech: los titulares de benchmark generan clics, pero rara vez cuentan la historia completa. Y cuando las decisiones de hardware involucran presupuesto real —workstations para renderizado, servidores de compilación, infraestructura para modelos de ML— elegir el benchmark equivocado puede costarte caro.

El Apple M5 Max es un chip extraordinario por su eficiencia energética, rendimiento por watt y su integración con el ecosistema macOS. El AMD Ryzen Threadripper Pro de 96 núcleos es una bestia para workloads paralelos masivos que ningún chip de laptop o Mac puede igualar en producción real. No son competidores directos: son herramientas para casos de uso distintos que un benchmark mal elegido pone artificialmente en la misma balanza.

La regla práctica: elige el benchmark que replica tu workload, no el que produce el titular más impactante. Y cuando veas un score de Geekbench 6 multicore comparando un chip de 18 núcleos con uno de 96, recuerda que estás viendo un artefacto del diseño del benchmark, no una medida del mundo real.

Si te interesan las implicaciones de hardware para IA y desarrollo, ya cubrimos el impacto de la escasez de DRAM en los Mac Studio M3 Ultra y la historia de cómo AMD ganó la carrera del gigahertz contra Intel, otro episodio donde los números de benchmark no contaban toda la historia.

Fuentes

Rodrigo Rojo http://descubre.ai

Tabla de contenidos [hide]

¿Qué dijo exactamente el benchmark filtrado?
El problema de fondo: Geekbench 6 y los chips de muchos núcleos
Geekbench 5 vs. Geekbench 6: el cambio que explica todo
¿Qué significa realmente el score del M5 Max?
¿Qué benchmarks sí son válidos para tomar decisiones de hardware?
Por qué importa
Fuentes

M5 Max vs. Threadripper de 96 núcleos: lo que el benchmark no te está diciendo

¿Qué dijo exactamente el benchmark filtrado?

El problema de fondo: Geekbench 6 y los chips de muchos núcleos

Geekbench 5 vs. Geekbench 6: el cambio que explica todo

¿Qué significa realmente el score del M5 Max?

¿Qué benchmarks sí son válidos para tomar decisiones de hardware?

Por qué importa

Fuentes

Tabla de contenidos [hide]

La jefa de robótica de OpenAI renuncia por el acuerdo con el Pentágono: “Esto merecía más deliberación”

El negocio de la confianza: por qué un job board verificado es la startup que el mercado necesita ahora

Apuestas con información privilegiada: EE.UU. quiere prohibir a políticos operar en Polymarket y Kalshi

Detectores de IA en el aula: la trampa que empuja a los estudiantes a hacer trampa

PopSockets: cómo un filósofo escaló a $169M sin VC ni marketing pagado

Otras noticias

La jefa de robótica de OpenAI renuncia por el acuerdo con el Pentágono: “Esto merecía más deliberación”

El negocio de la confianza: por qué un job board verificado es la startup que el mercado necesita ahora

Apuestas con información privilegiada: EE.UU. quiere prohibir a políticos operar en Polymarket y Kalshi

Detectores de IA en el aula: la trampa que empuja a los estudiantes a hacer trampa

La jefa de robótica de OpenAI renuncia por el acuerdo con el Pentágono: “Esto merecía más deliberación”

El negocio de la confianza: por qué un job board verificado es la startup que el mercado necesita ahora

Apuestas con información privilegiada: EE.UU. quiere prohibir a políticos operar en Polymarket y Kalshi