SAM 3: Meta lanza el modelo de segmentación visual más avanzado — y ya salva especies en peligro

Share

Meta acaba de lanzar Segment Anything Model 3, el salto más grande en segmentación visual de la historia del proyecto. SAM 3 puede encontrar cualquier objeto en una imagen o video usando solo una descripción de texto. Y mientras los investigadores todavía están evaluando sus límites, Conservation X Labs ya lo está usando para rastrear especies en peligro de extinción.

SAM 1 llegó en 2023 y fue revolucionario: podías hacer clic en cualquier punto de una imagen y el modelo generaba una máscara precisa alrededor del objeto. SAM 2 en 2024 extendió esa capacidad al video. Pero ambos modelos tenían un límite crítico: necesitaban un prompt visual, es decir, que un humano señalara qué segmentar. SAM 3 elimina ese requisito.

¿Qué puede hacer SAM 3 que los anteriores no podían?

La diferencia fundamental es que SAM 3 entiende lenguaje. Puedes describirle qué quieres encontrar — “autobús escolar amarillo” o “oso pardo adulto” — y el modelo busca y segmenta todos los casos de ese concepto en la imagen o video, simultáneamente, sin que un humano señale nada.

Esto es posible por tres avances clave:

  • Open-vocabulary: reconoce más de 270.000 conceptos visuales únicos, desde descripciones genéricas como “vehículo” hasta específicas como “camión rojo con remolque plateado”
  • Segmentación exhaustiva: si le pides “vehículos” en una escena urbana, devuelve máscaras separadas para cada auto, camión y moto presente — no una sola máscara para todo
  • Tracking en video: puede rastrear objetos identificados a través de frames sin necesidad de re-identificación manual

Meta lanzó los pesos del modelo y el dataset SA-Co bajo licencia abierta. También lanzó Segment Anything Playground, una interfaz web para experimentar directamente con las capacidades del modelo.

De laboratorio a selva: Conservation X Labs y la vida silvestre

Conservation X Labs, una organización dedicada a detener la extinción de especies mediante tecnología, fue una de las primeras en aplicar SAM 3 en escenarios del mundo real. El desafío que tenían era monumental: analizar miles de horas de video de cámaras trampa en hábitats remotos para identificar y rastrear animales en peligro de extinción.

Con herramientas anteriores, este proceso requería que biólogos revisaran manualmente el metraje o que entrenaran modelos específicos para cada especie — algo prohibitivamente costoso en tiempo y recursos. SAM 3 cambió la ecuación:

  • Los investigadores pueden describir en texto qué especie buscar
  • El modelo segmenta y rastrea los animales automáticamente a través del video
  • Los datos generados sirven para entrenar modelos más pequeños y eficientes para despliegue en campo

El resultado es un flujo de trabajo de monitoreo de biodiversidad que puede escalarse a cientos de hábitats simultáneamente, algo que antes era imposible con los recursos disponibles para organizaciones de conservación.

El modelo como “maestro” para IA en el borde

Una aplicación que está generando especial interés en la comunidad de edge AI es usar SAM 3 como modelo “maestro” para etiquetar datos. SAM 3 puede ser demasiado grande para correr en dispositivos con poca energía, pero su capacidad de generar anotaciones de segmentación de alta calidad en cualquier dominio — incluso categorías personalizadas o poco comunes — permite crear datasets para entrenar modelos más compactos.

Plataformas como Roboflow ya están integrando SAM 3 en sus pipelines de anotación, permitiendo que equipos pequeños construyan datasets de visión computacional en días en lugar de meses.

Por qué importa

SAM 3 representa un cambio cualitativo en cómo interactuamos con modelos de visión computacional. La barrera entre “describir” y “ver” se borra: ya no necesitas un experto en visión para etiquetar datos o construir detectores de objetos. Un biólogo puede describir una especie en texto y el modelo la encuentra. Un inspector puede describir un defecto de manufactura y el modelo lo localiza en el video de la línea de producción.

El caso de Conservation X Labs es especialmente poderoso porque muestra que la IA no solo genera eficiencias en industrias rentables — también puede democratizar capacidades que antes estaban reservadas para proyectos con presupuestos millonarios. En América Latina, donde la biodiversidad es excepcional pero los recursos para conservarla son escasos, este tipo de herramientas abiertas pueden tener un impacto desproporcionado.

Para quienes construyen productos de visión computacional, SAM 3 es ya una pieza fundamental del toolkit moderno — tan importante como fue SAM 1 cuando llegó en 2023. Esta es la evolución que conecta los modelos de visión con el lenguaje natural de la misma manera que los LLMs conectaron el texto con el razonamiento. Relacionado: DINOv3 de Meta avanza en la misma dirección para representaciones visuales densas.


Fuentes

Leer más

Otras noticias