Meetscribe: transcripción local de reuniones con IA, sin la nube

Share

Meetscribe transcribe tus reuniones localmente, identifica quién habla y genera un resumen estructurado en PDF — todo desde tu máquina, sin enviar un byte a la nube. Si te preocupa que tus llamadas de trabajo pasen por los servidores de Otter.ai o Fireflies, esto es para ti.

El proyecto apareció esta semana en GitHub de la mano de pretyflaco y acumula ya atención en comunidades de Linux y privacidad. La propuesta es sencilla: grabar el audio de cualquier videollamada (tu micrófono en el canal izquierdo, el audio del sistema en el canal derecho), transcribirlo con WhisperX, identificar a los hablantes con pyannote-audio y resumir el resultado con un modelo local en Ollama.

¿Cómo funciona Meetscribe por dentro?

La cadena técnica tiene cuatro pasos bien definidos:

  • Captura dual: ffmpeg graba tu micrófono y el audio remoto en un único WAV estéreo a 16 kHz usando PipeWire o PulseAudio (solo Linux por ahora).
  • Transcripción: WhisperX usa el modelo whisper-large-v3-turbo de OpenAI con inferencia en lote y timestamps a nivel de palabra gracias a wav2vec2. No hace falta conexión a internet después de descargar el modelo.
  • Diarización de hablantes: pyannote-audio (requiere un token gratuito de HuggingFace) detecta quién habla en cada momento. El canal dual permite etiquetar automáticamente tus frases como YOU y las del otro extremo como REMOTE_1, REMOTE_2, etc.
  • Resumen con IA local: Ollama envía el transcript a un LLM local que extrae temas principales, decisiones tomadas, tareas asignadas y preguntas pendientes. El modelo por defecto es qwen3.5:9b (6.6 GB), pero puedes cambiarlo a gemma3:12b o cualquier otro compatible.

El output final incluye un PDF paginado con el resumen ejecutivo y la transcripción completa, más archivos .txt, .srt y .json para quien necesite procesarlos.

Compatibilidad: si suena en tu máquina, Meetscribe lo captura

Como intercepta el audio a nivel de sistema operativo y no dentro de cada app, funciona con prácticamente cualquier plataforma: Zoom, Google Meet, Microsoft Teams, Slack, Discord, Signal, Telegram, WhatsApp Desktop, Jitsi, Webex, Skype y reuniones en navegador. No necesitas instalar plugins por separado ni dar permisos especiales dentro de cada aplicación.

La interfaz tiene dos sabores: una CLI (meet run, meet record, meet transcribe) y un widget GTK3 que flota encima de todas las ventanas con un botón de grabar, un timer y accesos directos al PDF generado.

Requisitos: GPU Nvidia recomendada, pero no obligatoria

El punto de fricción más claro es el hardware. Para correr WhisperX con diarización de forma fluida, Meetscribe recomienda una GPU Nvidia con al menos 8 GB de VRAM. En modo CUDA con el modelo large-v3-turbo, transcripción más diarización juntas consumen unos 7 GB de VRAM. Hay modo CPU, pero es considerablemente más lento.

Si estás en Windows o macOS, de momento no hay soporte oficial — la dependencia de PipeWire/PulseAudio limita la captura de audio a Linux.

Meetscribe vs. alternativas de IA local para reuniones

Meetscribe no es el único proyecto en este espacio. Meetily (que cubrimos antes en nuestra review del Plaud NotePin S) también combina Whisper + Ollama para notas locales, aunque en su versión desktop no incluye diarización de hablantes tan afinada. La ventaja de meetscribe es el canal dual, que permite separar voces de forma mucho más limpia que modelos entrenados solo para detectar turnos de habla. Si te interesan las herramientas de productividad que corren 100% local, también vale la pena echar un vistazo a Ghostmd, el editor de notas Markdown con IA local sin nube.

El proyecto es GPL-3.0, lo que significa que puedes estudiarlo, modificarlo y redistribuirlo libremente. Para quien trabaje en sectores con restricciones de confidencialidad (legal, salud, finanzas), ese detalle no es menor.

¿Qué le falta?

El propio README es honesto con las limitaciones actuales:

  • Solo identifica hablantes por rol (YOU / REMOTE), no por nombre propio.
  • El habla simultánea no se maneja bien — es una limitación de Whisper.
  • Solo inglés por ahora (aunque WhisperX en sí soporta múltiples idiomas; es la diarización la que impone el límite).
  • Solo Linux.

Por qué importa

Las herramientas de transcripción comerciales han normalizado que cada reunión de trabajo viaje a servidores de terceros para procesarse. Para startups, abogados, médicos o cualquier profesional que maneje información sensible, esa es una superficie de riesgo real, no teórica. Meetscribe demuestra que el stack técnico para hacer esto bien localmente ya existe y está al alcance de cualquier persona con una GPU decente — la misma que ya usas para modelos de código o generación de imágenes. Similar a lo que vimos con Kula para monitoreo Linux sin dependencias externas, el patrón es claro: las herramientas de productividad están migrando hacia arquitecturas local-first.

La pregunta es si el ecosistema de LLMs locales, que avanza a gran velocidad, terminará haciendo esto tan fácil de instalar como cualquier app de escritorio. Meetscribe, en su estado actual, todavía requiere cierta disposición técnica. Pero la dirección es correcta.


Fuentes

Leer más

Otras noticias