The New York Times ha “bloqueado duro” los crawlers de Internet Archive. The Guardian ha excluido sus artículos del Wayback Machine. Otros medios siguen su camino. El motivo oficial: evitar que compañías de IA accedan a sus contenidos usando el archivo como puerta trasera. El daño real: décadas de registro histórico que simplemente dejan de existir.
Y para América Latina, donde los archivos institucionales son escasos y los recursos para preservación digital son limitados, esto no es un problema de copyright tech. Es un problema de memoria colectiva.
¿Qué está pasando con Internet Archive?
Internet Archive lleva casi treinta años preservando el registro del internet. Su Wayback Machine almacena más de un billón de páginas web, es citada en millones de artículos de Wikipedia y es usada a diario por investigadores, periodistas y tribunales de todo el mundo para verificar qué se publicó, cuándo y cómo.
IA para el Resto de Nosotros
La nueva versión de mi curso estrella para aprender a usar la IA de forma práctica, simple y útil en tu día a día. Comienza el 24 de marzo.
→ Inscríbete hoy 🚀Pero desde fines de 2025, grandes medios comenzaron a bloquearlo activamente. El NYT añadió archive.org_bot a su robots.txt e implementó bloqueos técnicos que van más allá de las convenciones estándar. The Guardian limitó el acceso a sus artículos desde el Wayback Machine. Reuters, Associated Press y otros están evaluando medidas similares.
La Electronic Frontier Foundation (EFF) resumió el problema en marzo de 2026 con una analogía directa: imagina un periódico que anuncia que ya no permitirá que las bibliotecas guarden copias de sus ediciones. Eso es exactamente lo que está ocurriendo en línea.
El bloqueo no va a frenar a la IA
El argumento de los medios es técnicamente plausible pero editorialmente errado. La idea: si OpenAI, Anthropic o Google quieren scrappear sus contenidos, podrían usar el Wayback Machine como backdoor para saltarse sus paywalls y bloqueos. Ergo, bloquear el archivo evita esa posibilidad.
El problema es doble. Primero, Internet Archive no es un actor de IA. Es una biblioteca sin fines de lucro que no construye modelos ni comercializa datos. Segundo, las empresas de IA que quieren entrenar sobre contenido periodístico tienen rutas directas para acceder a él —históricas, vía acuerdos de licenciamiento con medios o mediante scraping masivo antes del bloqueo. Bloquear el archivo no cambia nada para ellas.
Lo que sí cambia es el acceso para todos los demás. Como señaló Techdirt, los historiadores del futuro que quieran estudiar el 2025 tendrán acceso a archivos de blogs, farms de contenido y sitios de teorías conspirativas. Pero no al New York Times. No a The Guardian.
El copyright de la IA es un debate legítimo que ya corre por los tribunales —desde el caso Britannica vs OpenAI hasta la posición del CEO de Patreon, que en SXSW dejó claro que el fair use de la IA es un argumento incompleto. Esos debates pertenecen a los tribunales. Destruir el registro histórico mientras se resuelven es un daño que no tiene reversa.
Por qué LATAM es especialmente vulnerable
En América del Norte y Europa, las instituciones académicas, las bibliotecas nacionales y los archivos estatales tienen infraestructura propia para preservación digital. Son imperfectos, pero existen. En América Latina, el panorama es muy distinto.
Las bibliotecas nacionales de la región tienen recursos limitados y mandatos de digitalización que apenas comienzan a tomar forma. Los medios periodísticos locales —que cubren elecciones, escándalos, crímenes de Estado, movimientos sociales— no tienen acceso a sistemas de archivo propios de largo plazo. Muchos dependen directamente de que el Wayback Machine los preserve.
Eso significa que cuando un medio latinoamericano cierra, cambia su CMS, borra artículos bajo presión política o simplemente pierde su dominio, la única copia disponible suele estar en Internet Archive. Si los grandes medios internacionales logran normalizar el bloqueo del Wayback Machine, ese precedente se va a extender. Y cuando llegue a los medios locales de la región —algunos de los cuales ya operan bajo presión de gobiernos autoritarios o intereses comerciales—, no habrá alternativa.
La paradoja es aguda: mientras los medios del norte global intentan protegerse de las empresas de IA más ricas del planeta, el efecto colateral directo cae sobre comunidades que ya tienen acceso frágil a su propio registro histórico.
Lo que viene y lo que hay que hacer
La EFF y el equipo de Internet Archive proponen una distinción clara que hasta ahora los medios no están dispuestos a aceptar: separar el acceso para archivado público del acceso para entrenamiento de IA. Técnicamente es posible mediante credenciales diferenciadas o acceso controlado. Pero requiere que los medios negocien con el archivo en lugar de bloquearlo.
Desde el lado de los ecosistemas latinoamericanos, hay dos apuestas posibles. La primera es apostar por la diversificación: iniciativas como la Hemeroteca Nacional Digital de México, el proyecto Memoria Chilena o la Biblioteca Digital del Caribe (dLOC) son buenos ejemplos de preservación descentralizada que no depende de una sola organización. La segunda es presión institucional: organizaciones regionales de periodismo y academia tienen todo el incentivo para exigir que Internet Archive mantenga acceso sin restricciones para contenido sin paywall, al menos.
Lo que no se puede hacer es tratar este problema como un debate del norte global que no afecta a la región. La memoria digital de América Latina está construida sobre una infraestructura que otros están comenzando a desmantelar por razones que poco tienen que ver con nosotros —y cuyas consecuencias las pagaremos desproporcionadamente.
Fuentes
- EFF — Blocking the Internet Archive Won’t Stop AI, But It Will Erase the Web’s Historical Record
- Techdirt — News Publishers Are Now Blocking The Internet Archive, And We May All Regret It
- Nieman Lab — News publishers limit Internet Archive access due to AI scraping concerns
- Ecosistema Startup — Internet Archive y desafíos de la preservación digital en LATAM

