SAM Audio: Meta aplica “Segment Anything” al sonido y supera a los modelos especializados

Share

Meta acaba de aplicar la misma magia de su modelo Segment Anything —que revolucionó la visión por computador— al audio. SAM Audio es el primer modelo que permite aislar cualquier sonido de una mezcla compleja usando lenguaje natural, una máscara visual o simplemente señalando un punto en el tiempo. Y lo hace mejor que los modelos especializados construidos específicamente para cada tarea.

Desde separar la voz de un locutor del ruido de fondo, hasta extraer un violín específico de una orquesta completa, SAM Audio unifica en un solo sistema lo que antes requería herramientas completamente distintas para cada caso de uso.

¿Qué es “segmentar” el audio?

Para entender qué hace SAM Audio, ayuda recordar qué hizo SAM —Segment Anything Model— en visión computacional. En 2023, Meta lanzó un modelo que podías apuntar a cualquier objeto en una imagen (con un clic, un recuadro o texto) y él lo “segmentaba” —lo separaba del resto—. Era el equivalente a la selección mágica de Photoshop, pero sin límites de entrenamiento: funcionaba con cualquier objeto, en cualquier imagen.

IA para el Resto de Nosotros

La nueva versión de mi curso estrella para aprender a usar la IA de forma práctica, simple y útil en tu día a día. Comienza el 24 de marzo.

→ Inscríbete hoy 🚀

SAM Audio hace lo mismo con el sonido. Le dices qué quieres extraer —”la guitarra”, “la voz del presentador”, “el sonido del tráfico de fondo”— y el modelo lo separa del resto de la mezcla de audio.

Tres formas de decirle qué quieres

Lo que hace especial a SAM Audio frente a herramientas anteriores es que acepta tres tipos de indicaciones (prompts):

  • Texto: Simplemente describes lo que quieres separar. “Aísla la batería”, “extrae solo la voz”, “elimina el ruido ambiental”.
  • Visual: Si tienes una representación visual del audio (como un espectrograma), puedes dibujar una máscara o hacer clic sobre el área que quieres aislar.
  • Temporal (span): El primero en su tipo. Señalas un punto en el tiempo donde aparece el sonido que te interesa y el modelo lo identifica y extrae a lo largo de toda la pista. Perfecto cuando un instrumento entra y sale de la mezcla.

Esta unificación de modalidades en un solo modelo es el salto real. Las herramientas anteriores requerían distintos sistemas para voz, música o efectos de sonido generales. SAM Audio cubre todo el espectro desde una sola arquitectura.

Resultados: mejor que los especialistas

El modelo no solo unifica —también supera a los modelos especializados en sus propios dominios. Según Meta, SAM Audio iguala o supera el rendimiento de los mejores modelos específicos de cada categoría: separación de voz, separación de instrumentos musicales y extracción de sonidos generales. Todo desde un framework unificado.

Para evaluar esto, Meta creó SAM Audio-Bench: un benchmark de muestras de 10 segundos con prompts multimodales enriquecidos —máscaras visuales dibujadas por humanos, marcadores de tiempo y descripciones textuales detalladas. Es una evaluación más realista y flexible que los benchmarks anteriores del campo.

Arquitectura: flow-matching transformer

Por debajo, SAM Audio usa una arquitectura de flow-matching transformer —entrenada en mezclas de audio multimodales a gran escala. El “flow-matching” es una técnica de generación que aprende a transformar ruido en señal de forma suave y continua, y que ha demostrado ser más estable que las arquitecturas de difusión tradicionales para tareas de audio.

El código está disponible en GitHub (facebookresearch/sam-audio) con checkpoints descargables y notebooks de ejemplo para quien quiera experimentar localmente.

Casos de uso concretos

  • Producción musical: Extraer pistas individuales de grabaciones en vivo sin stems. Remixear y rearreglar canciones existentes.
  • Podcasts y video: Eliminar ruido de fondo, separar voces de entrevistados en grabaciones con solapamiento, limpiar audio de campo.
  • Accesibilidad: Mejorar la inteligibilidad del habla en entornos ruidosos para personas con pérdida auditiva.
  • Investigación: Aislar llamadas de animales en grabaciones de campo para estudios de biodiversidad, o separar fuentes en grabaciones ambientales complejas.
  • Forensia digital: Extraer voces o sonidos específicos de grabaciones con mucho ruido en investigaciones.

Por qué importa

La tendencia que representa SAM Audio es clara: los modelos de IA pasan de ser herramientas especializadas —un modelo para voz, otro para música, otro para efectos— a convertirse en plataformas universales de segmentación que entienden la intención del usuario. Es la misma transición que vivimos en visión computacional: de detectores de objetos específicos a modelos que segmentan cualquier cosa bajo demanda.

Para la industria del audio —que mueve miles de millones en producción musical, postproducción de video, podcasting y sistemas de voz— esto es un cambio de reglas. Herramientas que antes requerían estudios de grabación profesionales y software costoso ahora pueden ejecutarse desde un cuaderno de Jupyter. El modelo es open source y Meta lanzó una demo interactiva en ai.meta.com/samaudio para que cualquiera pueda probarlo sin instalar nada.

Si te interesa el audio, la producción musical o simplemente estás explorando las fronteras de lo que los modelos de fundación pueden hacer hoy, SAM Audio es un punto de referencia importante para entender hacia dónde va el campo.


Fuentes

Leer más

Otras noticias