El saqueo digital y la cara oscura de la Inteligencia Artificial Española
La inteligencia artificial (IA) se presenta como la gran promesa del futuro, pero ¿qué pasa cuando su desarrollo se alimenta del trabajo ajeno sin permiso? Una reciente polémica en España ha puesto de manifiesto cómo los proyectos de IA impulsados por el propio Estado podrían estar entrando en conflicto con los derechos de autor de miles de creadores. La noticia se ha hecho pública a través del artículo de JotDown.
¿IA “Pública” con contenido “robado”?
La revelación es impactante: modelos de IA nacionales como MarIA
o ALIA
, promovidos por el Gobierno, se han entrenado utilizando Common Crawl
. Esta base de datos ingiere masivamente contenido de internet sin la debida autorización de sus propietarios. Lo más llamativo es que incluso el documento que traza la estrategia española de IA, su propio Plan Estratégico, se redactó con la ayuda de esta misma tecnología, un detalle bastante irónico.
El caso de Dialnet
es especialmente preocupante. Esta plataforma, gestada por la Universidad de La Rioja, es un verdadero pilar del conocimiento académico en español. Durante más de dos décadas, ha acumulado una cantidad ingente de tesis, artículos científicos y publicaciones, reflejo del esfuerzo colectivo de la comunidad investigadora. Pues bien, esta valiosa base de datos ha sido “aspirada” por Common Crawl, pasando a formar parte de los datos usados para entrenar la IA del Barcelona Supercomputing Center (BSC), la entidad detrás de modelos como ALIA
.
Aunque CEDRO
(el Centro Español de Derechos Reprográficos) ha conseguido que Common Crawl se comprometa a retirar el contenido editorial digital de su repositorio para evitar su uso en la IA sin licencia, esta medida llega tarde. Gran parte del contenido de Dialnet ya ha sido procesado, sin respetar, aparentemente, la propiedad intelectual y utilizado durante meses sin permiso.
La narrativa popular a menudo glorifica la IA como una entidad pensante y creativa. Sin embargo, la verdad que emerge de esta polémica es menos mágica: la IA generativa, en muchos casos, no inventa, sino que “recombina sin permiso”. Extrae y reproduce fragmentos textuales ya existentes con precisión quirúrgica, sin dar crédito ni compensar a los autores originales. Un LLM (Large Language Model) o Modelo de Lenguaje Grande es como una caja negra donde se mete información y se entrena con un objetivo. Cuando interactuamos con esos LLM (ChatGPT, Perplexity, Claude, etc.) lo que obtendremos será la respuesta que mayor probabilidad tiene de ser la adecuada, pero en ningún caso habrá inventado nada nuevo ni tendrá la certeza de que lo que responde es correcto.
¿Os suena eso de que un LLM es como un “cuñdo” porque siempre responde? ¿o quizá también lo de que sufre alucinaciones? esto es debido a que por la manera en que está diseñado, siempre va a responder con una respuesta: la que considera que tiene mayor probabilidad. Si los datos con los que se entrenó no estaban completos o no están actualizados, la respuesta podría no ser la adecuada.
¿Qué dice la ley europea?
La ley europea es clara: cualquier uso de obras protegidas para el entrenamiento de IA requiere permiso y una compensación justa. Una regla que, al parecer, muchos desarrolladores, tanto del ámbito público como privado, están pasando por alto.
Esto nos lleva a una pregunta fundamental: ¿cómo es posible que el mismo Estado que debería velar por los derechos de los creadores, y que incluso financia a la industria editorial, esté implicado en la apropiación de su trabajo? Es una paradoja que resuena con fuerza: ¿quién vigila al vigilante?
Esta situación va más allá de un problema técnico o legal; es una brecha ética profunda. Un proyecto como Dialnet, construido con un espíritu de servicio y difusión del saber, ha sido tratado como un mero banco de datos, vaciado sin consentimiento. Todo esto, justificado bajo la bandera de la “investigación pública” o la “soberanía tecnológica”. Nos remite a precedentes como Google Books, donde millones de libros fueron digitalizados sin autorización bajo la promesa de una “biblioteca universal”.
En definitiva, se está despojando a los creadores de su trabajo para alimentar herramientas que, irónicamente, podrían competir con ellos mismos en el futuro. Esto no es un avance neutral, sino una forma de extractivismo digital que pone en jaque la propiedad intelectual y el valor intrínseco del trabajo creativo. No quiero pensar mal y estoy convencido de que se trata de fallos debidos a falta de preparación, formación o por prisas. Queremos (y debemos) estar a la vaguardia, y a veces al correr cometemos errores. No pasa nada, lo importante es que seamos capaces de rectificar y poner en valor todo el trabajo realizado.
¿Qué otras implicaciones crees que podría tener esta práctica para el futuro de la creación de contenido y los derechos de autor?