GitHub usará repos privados para entrenar su IA: qué cambia y cómo protegerte

Share

A partir del 24 de abril, GitHub usará los datos de interacción de sus usuarios de Copilot gratuito, Pro y Pro+ para entrenar sus modelos de inteligencia artificial. El cambio es opt-out: si no haces nada, participas. Y hay un detalle que nadie debería pasar por alto: esos datos incluyen fragmentos de código de tus repositorios privados.

No es un movimiento técnicamente inédito —Anthropic, JetBrains y Microsoft tienen políticas similares— pero GitHub tiene una posición especial: aloja el código de millones de startups, proyectos internos y prototipos que sus creadores consideraban verdaderamente privados. El problema no es nuevo, pero el alcance sí lo es.

¿Qué datos recopila GitHub exactamente?

Según la política actualizada publicada el 25 de marzo, la recopilación abarca:

Aprende IA con nosotros

Únete gratis a mi comunidad en Skool, donde compartimos noticias, tutoriales y recursos para seguir aprendiendo juntos.

👥 Únete gratis 🚀
  • Outputs del modelo aceptados o modificados por el usuario
  • Inputs con fragmentos de código mostrados a Copilot
  • Contexto de código alrededor de la posición del cursor
  • Comentarios y documentación escritos por el usuario
  • Nombres de archivos y estructura de repositorio
  • Interacciones con funciones de Copilot (chats, etc.)
  • Feedback dado al modelo (thumbs up/down)

El punto más sensible está en los repositorios privados: “Si un usuario de Copilot tiene habilitado el entrenamiento de modelos con sus datos de interacción, fragmentos de código de repositorios privados pueden ser recopilados y usados para entrenamiento mientras el usuario trabaja activamente en ese repositorio”. No es código en reposo ni histórico de commits. Es lo que ocurre en tiempo real mientras programas con Copilot activo.

¿Quién está exento?

Hay excepciones importantes: los usuarios de Copilot Business y Copilot Enterprise quedan fuera gracias a los términos de sus contratos. También están exentos estudiantes, profesores y quienes hayan optado previamente por no participar en recopilaciones de datos (su preferencia se conserva). Las organizaciones que gestionan repositorios enterprise también están protegidas.

En pocas palabras: si eres un developer individual con plan gratuito o de pago personal, eres el target del cambio.

Por qué esto importa más allá del ruido

GitHub lleva años siendo el lugar donde el código “privado” existía en una zona gris: no era público, pero GitHub siempre tuvo acceso técnico. La diferencia es que ahora ese acceso se convierte en entrenamiento activo de modelos que compiten, a través de Copilot, directamente con el trabajo de esos mismos desarrolladores.

El patrón ya lo hemos visto antes. En un análisis anterior de descubre.ai detallamos que GitHub ya entrenaba con datos de Copilot desde abril —este nuevo cambio extiende ese alcance explícitamente a los planes gratuitos e individuales, con opt-out como mecanismo de control en lugar de opt-in.

Para startups en fintech, healthtech o cualquier rubro con contratos de confidencialidad o propiedad intelectual sensible, la ecuación tiene una capa legal además de la técnica: ¿qué dicen los contratos con clientes sobre el código que el equipo escribe usando Copilot en sus repos? Si el contrato tiene cláusulas de confidencialidad estrictas, la respuesta no es obvia.

La comunidad de GitHub ya mostró su malestar: 59 reacciones negativas frente a 3 positivas en el hilo oficial. Pero el descontento simbólico rara vez detiene estos cambios. Lo que sí puede detenerlos es que usuarios relevantes se muevan a alternativas: GitLab ofrece instancias self-hosted con control total sobre los datos; Bitbucket y otras plataformas tienen políticas distintas.

Cómo hacer opt-out (si decides hacerlo)

Es sencillo: ve a github.com/settings/copilot/features y desactiva “Allow GitHub to use my data for AI model training” bajo el encabezado Privacy. No hace falta cancelar Copilot ni cambiar de plan.

Si gestionas equipos, verifica también las políticas a nivel de organización —los administradores pueden configurar restricciones que apliquen a todos los repositorios bajo esa org.


Fuentes

Leer más

Otras noticias