SAM 3: Meta lanza el modelo de segmentación visual más avanzado — y ya salva especies en peligro

Share

Meta acaba de lanzar Segment Anything Model 3, el salto más grande en segmentación visual de la historia del proyecto. SAM 3 puede encontrar cualquier objeto en una imagen o video usando solo una descripción de texto. Y mientras los investigadores todavía están evaluando sus límites, Conservation X Labs ya lo está usando para rastrear especies en peligro de extinción.

SAM 1 llegó en 2023 y fue revolucionario: podías hacer clic en cualquier punto de una imagen y el modelo generaba una máscara precisa alrededor del objeto. SAM 2 en 2024 extendió esa capacidad al video. Pero ambos modelos tenían un límite crítico: necesitaban un prompt visual, es decir, que un humano señalara qué segmentar. SAM 3 elimina ese requisito.

¿Qué puede hacer SAM 3 que los anteriores no podían?

La diferencia fundamental es que SAM 3 entiende lenguaje. Puedes describirle qué quieres encontrar — “autobús escolar amarillo” o “oso pardo adulto” — y el modelo busca y segmenta todos los casos de ese concepto en la imagen o video, simultáneamente, sin que un humano señale nada.

Esto es posible por tres avances clave:

Open-vocabulary: reconoce más de 270.000 conceptos visuales únicos, desde descripciones genéricas como “vehículo” hasta específicas como “camión rojo con remolque plateado”
Segmentación exhaustiva: si le pides “vehículos” en una escena urbana, devuelve máscaras separadas para cada auto, camión y moto presente — no una sola máscara para todo
Tracking en video: puede rastrear objetos identificados a través de frames sin necesidad de re-identificación manual

Meta lanzó los pesos del modelo y el dataset SA-Co bajo licencia abierta. También lanzó Segment Anything Playground, una interfaz web para experimentar directamente con las capacidades del modelo.

De laboratorio a selva: Conservation X Labs y la vida silvestre

Conservation X Labs, una organización dedicada a detener la extinción de especies mediante tecnología, fue una de las primeras en aplicar SAM 3 en escenarios del mundo real. El desafío que tenían era monumental: analizar miles de horas de video de cámaras trampa en hábitats remotos para identificar y rastrear animales en peligro de extinción.

Con herramientas anteriores, este proceso requería que biólogos revisaran manualmente el metraje o que entrenaran modelos específicos para cada especie — algo prohibitivamente costoso en tiempo y recursos. SAM 3 cambió la ecuación:

Los investigadores pueden describir en texto qué especie buscar
El modelo segmenta y rastrea los animales automáticamente a través del video
Los datos generados sirven para entrenar modelos más pequeños y eficientes para despliegue en campo

El resultado es un flujo de trabajo de monitoreo de biodiversidad que puede escalarse a cientos de hábitats simultáneamente, algo que antes era imposible con los recursos disponibles para organizaciones de conservación.

El modelo como “maestro” para IA en el borde

Una aplicación que está generando especial interés en la comunidad de edge AI es usar SAM 3 como modelo “maestro” para etiquetar datos. SAM 3 puede ser demasiado grande para correr en dispositivos con poca energía, pero su capacidad de generar anotaciones de segmentación de alta calidad en cualquier dominio — incluso categorías personalizadas o poco comunes — permite crear datasets para entrenar modelos más compactos.

Plataformas como Roboflow ya están integrando SAM 3 en sus pipelines de anotación, permitiendo que equipos pequeños construyan datasets de visión computacional en días en lugar de meses.

Por qué importa

SAM 3 representa un cambio cualitativo en cómo interactuamos con modelos de visión computacional. La barrera entre “describir” y “ver” se borra: ya no necesitas un experto en visión para etiquetar datos o construir detectores de objetos. Un biólogo puede describir una especie en texto y el modelo la encuentra. Un inspector puede describir un defecto de manufactura y el modelo lo localiza en el video de la línea de producción.

El caso de Conservation X Labs es especialmente poderoso porque muestra que la IA no solo genera eficiencias en industrias rentables — también puede democratizar capacidades que antes estaban reservadas para proyectos con presupuestos millonarios. En América Latina, donde la biodiversidad es excepcional pero los recursos para conservarla son escasos, este tipo de herramientas abiertas pueden tener un impacto desproporcionado.

Para quienes construyen productos de visión computacional, SAM 3 es ya una pieza fundamental del toolkit moderno — tan importante como fue SAM 1 cuando llegó en 2023. Esta es la evolución que conecta los modelos de visión con el lenguaje natural de la misma manera que los LLMs conectaron el texto con el razonamiento. Relacionado: DINOv3 de Meta avanza en la misma dirección para representaciones visuales densas.

Fuentes

Rodrigo Rojo http://descubre.ai

Tabla de contenidos [hide]

¿Qué puede hacer SAM 3 que los anteriores no podían?
De laboratorio a selva: Conservation X Labs y la vida silvestre
El modelo como “maestro” para IA en el borde
Por qué importa
Fuentes

SAM 3: Meta lanza el modelo de segmentación visual más avanzado — y ya salva especies en peligro

¿Qué puede hacer SAM 3 que los anteriores no podían?

De laboratorio a selva: Conservation X Labs y la vida silvestre

El modelo como “maestro” para IA en el borde

Por qué importa

Fuentes

Tabla de contenidos [hide]

Anthropic abre oficina en Sídney: cuarto hub en Asia-Pacífico

Motorola Project Maxwell: el colgante con IA que escucha y ve todo

Kalshi elige Threads, no X, para compartir sus predicciones en vivo

IA en ciberseguridad 2026: 77% la usa, solo el 37% la gobierna

Refactoring con IA: los agentes de IA liquidan la deuda técnica que postergabas

Otras noticias

Anthropic abre oficina en Sídney: cuarto hub en Asia-Pacífico

Motorola Project Maxwell: el colgante con IA que escucha y ve todo

Kalshi elige Threads, no X, para compartir sus predicciones en vivo

IA en ciberseguridad 2026: 77% la usa, solo el 37% la gobierna

Anthropic abre oficina en Sídney: cuarto hub en Asia-Pacífico

Motorola Project Maxwell: el colgante con IA que escucha y ve todo

Kalshi elige Threads, no X, para compartir sus predicciones en vivo