Kadrey v. Meta: el juicio que decide si la IA puede entrenar con libros pirateados

Share

Meta descargó 81,7 terabytes de libros pirateados vía BitTorrent para entrenar a Llama, su familia de modelos de lenguaje. Un juez federal falló que eso es fair use. Pero la batalla legal no terminó: queda pendiente si redistribuir esos libros a otros nodos de la red también está permitido. Este caso es el primer gran test sobre cómo la IA puede —o no— alimentarse de contenido protegido sin pedir permiso.

El caso Kadrey v. Meta lleva tres años definiendo las reglas del juego para toda la industria de la inteligencia artificial. Lo que empezó como una demanda de autores frustrados terminó siendo el litigio de copyright más importante del siglo para el desarrollo de LLMs.

¿Qué hizo Meta exactamente para entrenar Llama?

En 2023, un grupo de autores —encabezado por el escritor Richard Kadrey y la comediante Sarah Silverman— presentó una demanda colectiva contra Meta. La acusación: la empresa usó libros protegidos por derechos de autor para entrenar Llama sin pedir permiso ni pagar un centavo.

Lo revelador no fue solo qué datos usó Meta, sino cómo los consiguió. Documentos del juicio, desclasificados en enero de 2025 por Wired, mostraron que Meta recurrió a BitTorrent para descargar repositorios de libros pirateados como Library Genesis (LibGen) y Anna’s Archive. Según las deposiciones internas, algunos ejecutivos abrazaban abiertamente la filosofía de “pedir perdón, no permiso”.

El fallo de junio de 2025: el entrenamiento sí es fair use

El juez Vince Chhabria, del Tribunal del Distrito Norte de California, concedió la moción de Meta para un juicio sumario parcial en junio de 2025: el uso de libros con copyright para entrenar Llama constituye uso justo bajo la ley estadounidense.

El análisis se apoyó en los cuatro factores clásicos del fair use:

Propósito y carácter del uso: el entrenamiento de IA fue considerado altamente transformativo respecto al uso original de los libros.
Naturaleza de la obra: las obras literarias tienen alta protección, pero este factor quedó subordinado al carácter transformativo.
Cantidad utilizada: Meta usó obras completas, lo que pesó en su contra.
Efecto en el mercado: los autores no pudieron demostrar daño concreto en sus ventas ni en mercados de licencias. Este fue el factor determinante.

Skadden Arps, firma legal que analizó el fallo, señaló que un elemento crítico en ambos casos (Kadrey y el paralelo Bartz v. Anthropic) fue “la ausencia de evidencia de que los LLMs pudieran generar outputs que repliquen sustancialmente las obras de los demandantes”. Sin esa prueba, el daño al mercado es difícil de acreditar.

El propio juez Chhabria dejó una advertencia: si los autores hubieran presentado argumentos más sólidos sobre el impacto en el mercado de licencias, el resultado podría haber sido diferente.

El problema del seeding: la pregunta que sigue abierta

Aquí está el verdadero campo de batalla de 2026. Cuando descargas con BitTorrent, no eres un receptor pasivo: el protocolo te convierte automáticamente en distribuidor. Mientras bajas, subes fragmentos del archivo a otros nodos de la red. Se llama “seeding”.

Meta ahora argumenta que ese proceso de subida también debería calificar como fair use, ya que es una consecuencia técnica inevitable del protocolo —no una decisión editorial consciente de distribuir libros pirata. La empresa sostiene además que este argumento fue planteado anteriormente en el proceso.

Los autores demandantes rechazan esto de plano: para ellos, Meta redistribuyó activamente material infractor a terceros, lo que va mucho más allá de cualquier uso transformativo. Es distribución directa, punto.

A principios de 2026, esa pregunta —¿el seeding es también fair use?— sigue sin resolverse. Ninguna de las partes solicitó juicio sumario sobre la reclamación de distribución. Queda abierta para juicio o negociación. Si el tribunal determina que el seeding constituye distribución infractora, Meta podría enfrentar compensaciones económicas significativas.

El precedente paralelo: Bartz v. Anthropic

Para entender el contexto completo, conviene comparar con Bartz v. Anthropic, resuelto en 2025 por el mismo tribunal. Ahí el juez estableció una distinción importante: usar libros pirateados para entrenar IA puede ser fair use, pero mantener una biblioteca centralizada de esas obras para usos distintos al entrenamiento sí constituye infracción.

En el caso de Meta, la empresa no retuvo esa biblioteca más allá del proceso de entrenamiento. Ese detalle fue favorable para su posición. La diferencia entre “usé los datos para entrenar y luego los eliminé” versus “mantuve una copia permanente de libros pirata” podría ser lo que separe lo lícito de lo ilícito en este ecosistema legal.

Por qué importa

Este caso tiene consecuencias directas para cualquier startup que esté construyendo o evaluando LLMs propios, no solo en Silicon Valley sino en toda América Latina.

Primero: el fair use no es una carta blanca. El fallo es muy específico al contexto —ausencia de daño demostrable al mercado, uso transformativo claro, sin retención de biblioteca pirata. Cambiar cualquiera de esos factores puede cambiar el resultado.

Segundo: el método de adquisición importa tanto como el uso. No basta con que el entrenamiento sea transformativo. Cómo conseguiste los datos —piratería, scraping sin permiso, redistribución vía P2P— puede generar responsabilidad independiente. Los tribunales están empezando a entender y juzgar los detalles técnicos de la adquisición de datos.

Tercero: el ecosistema regulatorio se está moviendo. Strike 3 Holdings demandó a Meta en julio de 2025 por usar BitTorrent para descargar contenido adulto con copyright. La Electronic Frontier Foundation (EFF) presentó un brief advirtiendo que el tribunal debe evitar crear exenciones automáticas de fair use para BitTorrent o piratería en internet, porque eso erosionaría la protección para usos legítimos de nueva tecnología.

El resultado final de Kadrey v. Meta importará no solo como precedente legal, sino como señal de cuánto riesgo están dispuestos a asumir los tribunales al definir qué tan hambrienta de datos puede ser la industria de la IA. Si el seeding se declara infracción, el costo de construir modelos grandes con datos de dudosa procedencia aumenta exponencialmente. Si no, la señal para la industria es clara: pedir perdón sigue siendo más barato que pedir permiso.

Puedes conectar este debate legal con el análisis más amplio sobre cómo los LLMs centralizan el poder informativo y con la capacidad de la IA para desanonimizar información, dos dimensiones del mismo problema: quién controla los datos y qué puede hacer con ellos.

Fuentes

Rodrigo Rojo http://descubre.ai

Tabla de contenidos [hide]

¿Qué hizo Meta exactamente para entrenar Llama?
El fallo de junio de 2025: el entrenamiento sí es fair use
El problema del seeding: la pregunta que sigue abierta
El precedente paralelo: Bartz v. Anthropic
Por qué importa
Fuentes

Kadrey v. Meta: el juicio que decide si la IA puede entrenar con libros pirateados

¿Qué hizo Meta exactamente para entrenar Llama?

El fallo de junio de 2025: el entrenamiento sí es fair use

El problema del seeding: la pregunta que sigue abierta

El precedente paralelo: Bartz v. Anthropic

Por qué importa

Fuentes

Tabla de contenidos [hide]

Cuando la IA alucina, deja huellas matemáticas: así las detectan sin reentrenar nada

Helios: el modelo open-weight de ByteDance que genera video en tiempo real a 19,5 FPS

Tanstaafl: el email donde el spam muere porque cuesta satoshis enviarlo

Wheel The World cierra US$ 11M: la startup chilena que quiere resolver el turismo accesible con IA

Los modelos de vídeo con IA chocan contra un techo de razonamiento que más datos no van a resolver

Otras noticias

Cuando la IA alucina, deja huellas matemáticas: así las detectan sin reentrenar nada

Helios: el modelo open-weight de ByteDance que genera video en tiempo real a 19,5 FPS

Tanstaafl: el email donde el spam muere porque cuesta satoshis enviarlo

Wheel The World cierra US$ 11M: la startup chilena que quiere resolver el turismo accesible con IA

Cuando la IA alucina, deja huellas matemáticas: así las detectan sin reentrenar nada

Helios: el modelo open-weight de ByteDance que genera video en tiempo real a 19,5 FPS

Tanstaafl: el email donde el spam muere porque cuesta satoshis enviarlo