Wikipedia prohíbe el texto de IA: la enciclopedia más grande defiende su integridad

Share

Wikipedia acaba de votar 40 a 2 para prohibir que sus editores usen texto generado por IA en los artículos de la enciclopedia. No es una restricción técnica impuesta desde arriba: es una decisión democrática de la misma comunidad de voluntarios que construyó el mayor repositorio de conocimiento libre de la historia. Y eso cambia el peso del mensaje.

La decisión llega en un momento en que muchas redacciones y plataformas digitales están yendo exactamente en la dirección contraria: automatizando, acelerando, delegando en modelos de lenguaje la primera versión de casi todo. Wikipedia dice que no. Y tiene razones estructurales para hacerlo.

¿Qué cambia exactamente?

El lenguaje de la nueva política es más preciso que el anterior. Antes, la norma indicaba que los LLMs “no deberían usarse para generar artículos nuevos desde cero.” Vaga, ambigua, difícil de aplicar. La versión actualizada es directa: “el uso de LLMs para generar o reescribir contenido de artículos está prohibido.”

Aprende IA con nosotros

Únete gratis a mi comunidad en Skool, donde compartimos noticias, tutoriales y recursos para seguir aprendiendo juntos.

👥 Únete gratis 🚀

La distinción importa. Reescribir es la operación más seductora de los modelos de lenguaje: tomas un texto, se lo pasas al modelo, y en segundos tienes una versión “mejorada”. El problema es que esa mejora viene sin garantías de que las fuentes citadas sigan respaldando lo que el texto dice. El propio documento de política lo reconoce: “los LLMs pueden ir más allá de lo que les pides y cambiar el significado del texto de forma que ya no esté respaldado por las fuentes citadas.”

Sí se mantiene un uso acotado: los editores pueden usar LLMs para sugerir correcciones básicas a su propio texto, pero solo si el modelo no introduce contenido nuevo. La revisión humana es obligatoria. Es decir, la IA como corrector ortográfico avanzado, no como coautor.

¿Por qué la veracidad es el núcleo del argumento?

Wikipedia no opera como un medio de comunicación. Su propósito no es ser primero ni ser interesante: es ser verificable. Cada afirmación debe poder rastrearse hasta una fuente citada. Es un modelo de conocimiento acumulado, revisado por pares voluntarios durante décadas.

Los LLMs rompen ese modelo porque son plausibles, no verídicos. Pueden generar texto que suena completamente coherente con el tema, usa terminología correcta y tiene la estructura esperada de un artículo de Wikipedia, pero introduce datos, fechas, nombres o interpretaciones que no existen en ninguna fuente. No lo hacen por malicia; lo hacen porque están optimizados para la fluidez, no para la trazabilidad.

En un entorno donde el error es visible (una fecha equivocada en un artículo histórico, un nombre mal atribuido) y donde el daño reputacional es acumulativo, el riesgo es asimétrico. La velocidad de generación de IA no compensa el costo de una enciclopedia que va perdiendo confiabilidad.

La ironía que nadie menciona

Wikipedia es uno de los conjuntos de datos más usados para entrenar modelos de lenguaje. GPT, Llama, Gemini, Claude: todos han sido alimentados con versiones del corpus de Wikipedia. La decisión de la enciclopedia no es solo editorial; tiene implicaciones para la calidad futura de los modelos.

Si Wikipedia se contamina con texto generado por IA, los modelos del futuro entrenarán sobre texto generado por modelos anteriores. El fenómeno tiene nombre: model collapse. La degradación es gradual y acumulativa, pero real. El paper de Shumailov et al. (2024) demostró que modelos entrenados iterativamente sobre datos sintéticos pierden diversidad y precisión. Wikipedia, al proteger la integridad de su corpus, está indirectamente protegiendo también a los modelos que se entrenan sobre él.

El patrón que se está armando en las plataformas

Wikipedia no está sola en esta tensión. Reddit también está presionando para verificar quién es humano y quién es bot, con propuestas que van desde passkeys hasta Face ID. Hacker News implementó restricciones a posts y comentarios generados con IA que no aporten perspectiva original. Debian admitió públicamente que no sabe cómo manejar el código generado por IA en sus repositorios. La presión para establecer líneas claras entre contenido humano y contenido sintético está creciendo en todas las plataformas de conocimiento colaborativo.

Lo notable de la decisión de Wikipedia es que la tomaron los propios editores, no la Fundación Wikimedia. Cuarenta personas que han dedicado miles de horas voluntarias a construir el mayor proyecto enciclopédico de la historia dijeron, casi por unanimidad, que el texto de IA no tiene lugar en lo que están construyendo. Eso es diferente a una política corporativa: es una señal de los constructores mismos.

¿Qué queda sin resolver?

La aplicación de esta política es el problema difícil. No existe un detector de texto de IA confiable. Los falsos positivos son frecuentes: el 61% de los falsos positivos en detectores educativos afecta a no angloparlantes. Wikipedia opera en más de 300 idiomas con editores distribuidos por el mundo. Enforcement real es prácticamente imposible.

La política funciona, entonces, como norma cultural más que como control técnico. Establece qué tipo de contribución es bienvenida y cuál no, aunque la verificación sea imperfecta. Es el mismo mecanismo que hace que la comunidad de Wikipedia rechace el spam, el vandalismo o las fuentes primarias sin revisión editorial: no con algoritmos, sino con vigilancia distribuida y consecuencias sociales.

El riesgo real no es el editor que explícitamente copia texto de ChatGPT y lo pega. Es el editor bien intencionado que “edita ligeramente” una versión generada por IA sin entender que el modelo cambió el significado de lo que las fuentes dicen. La política intenta bloquear exactamente ese caso, pero hacerlo a escala requiere más que una votación.

Por qué importa más allá de Wikipedia

Wikipedia es el quinto sitio más visitado del mundo. Es también la fuente que aparece en casi todos los resultados de búsqueda, la que citan periodistas, investigadores y estudiantes como punto de partida, y la que los modelos de IA consultan implícitamente a través de su entrenamiento. Su integridad editorial no es un asunto interno de la comunidad de voluntarios: es infraestructura de conocimiento público.

La decisión no frena el uso de IA en Wikipedia. Los editores pueden usar herramientas de IA para investigar, organizar, traducir, comparar fuentes. Lo que no pueden hacer es delegar en un modelo la generación del texto que aparece en la enciclopedia. Es una distinción fina pero crucial: la IA como herramienta del editor, no como voz de la enciclopedia.

En un momento en que ocho organizaciones distintas compiten para crear sellos de “contenido sin IA” sin ponerse de acuerdo en un estándar, Wikipedia acaba de crear el suyo propio. Sin sello, sin certificación, solo una votación comunitaria y una política actualizada. A veces los estándares los construyen los que tienen algo real que perder si no lo hacen.


Fuentes

Leer más

Otras noticias