Un par de meses después de lanzar SAM 3 —el modelo de segmentación más preciso que existe hasta la fecha— Meta cerró el bucle: ahora también puede reconstruir en 3D cualquier objeto que identifiques en una foto. Se llama SAM 3D, y el resultado es un modelo generativo que convierte una sola imagen 2D en geometría, textura y orientación espacial.
La cadena completa queda así: seleccionas un elemento en una foto con SAM 3, el sistema te devuelve la máscara de segmentación, y SAM 3D convierte esa máscara en un modelo 3D completo. Meta lo llama el bucle segment → 3Dfy → use, y ya está disponible en el Segment Anything Playground para que cualquiera suba imágenes y lo pruebe.
¿Qué hace exactamente SAM 3D?
A diferencia de sistemas de reconstrucción 3D anteriores —que típicamente requieren múltiples vistas del objeto, un escaneo LIDAR, o prompts densos— SAM 3D opera desde una sola imagen. Le das una foto, le señalas un objeto (una silla, una persona, una taza), y el modelo genera:
IA para el Resto de Nosotros
La nueva versión de mi curso estrella para aprender a usar la IA de forma práctica, simple y útil en tu día a día. Comienza el 24 de marzo.
→ Inscríbete hoy 🚀- Geometría: la forma 3D estimada del objeto, incluyendo las partes que no son visibles desde ese ángulo
- Textura: la apariencia realista de la superficie, interpolada a partir de lo visible
- Layout espacial: la orientación y posición del objeto en la escena
El modelo fue entrenado específicamente en imágenes naturales, donde la oclusión y el desorden visual son frecuentes. Eso lo hace más robusto que sistemas entrenados en conjuntos de datos sintéticos o de laboratorio. Según Meta, SAM 3D usa las pistas de reconocimiento visual del contexto para inferir lo que no está directamente a la vista, igual que hacemos los humanos cuando mentalmente completamos un objeto parcialmente oculto.
¿Qué cambia en la práctica?
La cadena segment → 3Dfy → use tiene aplicaciones concretas en varios dominios que ya se estaban usando SAM 3:
Diseño y comercio electrónico: Una foto de producto cualquiera puede convertirse en un modelo 3D para configuradores interactivos o experiencias de realidad aumentada, sin sesión de escaneo ni equipo especializado. El pipeline puede procesar catálogos enteros de forma automatizada.
Videojuegos y producción 3D: Los artistas pueden convertir referencias fotográficas —props, muebles, objetos de época— en assets 3D básicos que luego refinan. Es el paso de “captura” que históricamente requería photogrammetry o modelado manual.
Robótica: SAM 3D puede alimentar directamente los pipelines de IA física que necesitan mapas 3D del entorno. En lugar de requerir sensores de profundidad, el robot puede inferir geometría desde cámaras RGB estándar. Meta ya ha conectado SAM 3 con proyectos de robótica en el pasado; SAM 3D extiende esa capacidad.
Simulación y gemelos digitales: Reconstruir espacios físicos desde fotos en lugar de escáneres es significativamente más accesible y escalable. Los arquitectos e ingenieros industriales pueden alimentar simulaciones con datos fotográficos del estado actual de un espacio.
Por qué importa en el contexto de Meta
SAM 3D no es un lanzamiento aislado: es el eslabón que faltaba en el ecosistema de visión de Meta. SAM 3 ya podía identificar y rastrear objetos en imágenes y video con una precisión que supera el estado del arte. DINOv3 maneja reconocimiento semántico a escala sin necesidad de etiquetas. SAM Audio lleva el paradigma a la separación de sonidos. SAM 3D cierra la dimensión espacial: el mundo físico ya puede ser procesado, segmentado, y reconstruido completamente con los modelos open source de Meta.
Todo esto está disponible como open source en GitHub. La estrategia es clara: Meta construye la capa de percepción del mundo físico que alimentará sus sistemas de IA —desde las gafas Ray-Ban hasta los agentes de realidad aumentada de Horizon— y lo hace asegurándose de que sea el estándar de la industria antes de que otro lo sea.
Para los developers, el momento práctico es ahora: SAM 3 + SAM 3D forman un pipeline que hasta hace poco requería múltiples herramientas especializadas, hardware de escaneo, y presupuesto de producción. Hoy corre sobre imágenes ordinarias, con modelos descargables desde Hugging Face.

