Capacitación en IA: Cuando ChatGPT escribió una secuela de Juego de Tronos. Batalla legal IAnodo, capacitación y consultoría en inteligencia artificial por Guillermo Furió

Como parte de la presentación abogados del autor le pidieron a ChatGPT que escribiera un esquema para una secuela de A Clash of Kings que no siguiera los eventos de A Storm of Swords. Según el fallo, la respuesta fue inmediata:

“¡Absolutamente! Imaginemos una secuela alternativa… la llamaremos A Dance with Shadows”.

En ese esquema aparecieron dragones con una forma de magia ancestral, una pretendiente al Trono de Hierro llamada Lady Elara (descendiente lejana de los Targaryen), y una secta rebelde de los Niños del Bosque. El juez consideró que el nivel de detalle, el tono y la similitud temática eran suficientes para que un jurado razonable pudiera hallar infracción de derechos de autor.

Esto es solo el primer paso: el fallo no condena a OpenAI, pero dice que los reclamos pueden seguir adelante.

Diferenciación conceptual: infracción por Input vs. infracción por Output

Hay que desenredar dos cosas totalmente distintas que suelen mezclarse:

Infracción por Input (Entrenamiento): Cuando la empresa entrena el modelo con obras protegidas, sin permiso. Es decir: accedo a todo el libro, los documentos, las publicaciones, etc., y el modelo “aprende” a partir de esos datos. Los autores alegan que OpenAI lo hizo de forma ilegal o para un uso no permitido.
Infracción por Output (Generación): Cuando el modelo genera un texto que es tan parecido a la obra original que podría considerarse “una copia”. El ejemplo de A Dance with Shadows entra aquí: la secuela que ChatGPT generó y que resultó muy cercana en tono, estilo y temática al universo original.

El caso de Martin las combina: reclaman el Input (las obras entrenadas sin licencia) y reclaman el Output (lo que generó ChatGPT que “podría haber sido” contenido de Martin). Esa combinación es lo que lo hace tan interesante, y de alguna manera peligroso para las empresas de IA.

La base legal del conflicto: El debate sobre el uso legítimo

El centro jurídico del enfrentamiento es la doctrina del fair use (uso legítimo) en EE.UU. que permite usar obras protegidas sin permiso bajo ciertos criterios. Pero dos cosas complican el panorama:

Si se usaron los libros sin permiso para entrenar, ya se debilita la defensa de fair use. Las obras fueron “copiadas” para alimentar el modelo.
Si los outputs generados se parecen demasiado a la obra original, entonces podrían vulnerar los derechos exclusivos del autor de reproducir o derivar la obra. El fallo deja claro que el «output» generado fue suficientemente parecido como para que el caso avance.

Caso 1, Martin vs OpenAI

En septiembre de 2023, Martin, junto a otros diecisiete autores organizados por la Authors Guild, presentó una demanda colectiva contra OpenAI y su plataforma ChatGPT, alegando que la empresa había utilizado sus obras protegidas sin autorización para entrenar sus modelos de lenguaje. La noticia ahora es que la acusación avanzó cuando un fallo del juez Sidney Stein autorizó que siguiera la demanda al considerar que uno de los “outputs” generados por ChatGPT, el esquema detallado que les conté al comienzo, era suficientemente similar en tono, trama y estilo a la obra de Martin como para que un jurado razonable pudiera encontrar infracción de derechos de autor. Es decir podía pasar por escrito por el autor sin problemas (lo cual puede ser una solución para los que seguimos esperando el sexto libro : ) ).

Tambiñen deja claro que la demanda no se centra sólo en cómo fue entrenado el modelo “input”, sino también en lo que genera el modelo “output” y si este último se acerca demasiado a la obra original. Aunque aún no hay un veredicto final, este caso marcará un precedente importante sobre hasta qué punto las compañías de IA pueden crear contenidos derivados sin licenciar los materiales de los autores.

Caso 2, Anthropic: Problema con los datos

Otro de los precedentes importantes en esta ola de litigio lo protagonizó Anthropic, creadora del modelo Claude. La demanda, presentada por un grupo de autores encabezado por Andrea Bartz y Charles Graeber, denunció que la compañía había utilizado más de siete millones de libros para entrenar su modelo, muchos de ellos descargados de sitios de piratería. No se trataba de simples referencias o fragmentos aislados, sino de copias completas almacenadas sistemáticamente en servidores ilegales.

El fallo del juez fue interesante porque marcó una línea divisoria: Por un lado, reconoció que el entrenamiento de modelos de IA con obras literarias puede, en principio, considerarse un uso “altamente transformador”, dentro de la doctrina del fair use estadounidense. Comparó el proceso con la forma en que un lector humano absorbe el contenido de un libro y lo convierte en conocimiento o inspiración. Pero por el otro lado determinó que la forma en que se adquirieron esas obras era ilegal. La infracción no estaba en la técnica de aprendizaje automático, sino en la fuente del material que se usó como insumo.

Todo termino en un acuerdo extrajudicial en el que Anthropic pago 1.500 millones de dólares para evitar continuar el juicio, además de eliminar todo ese corpus de su sistema de entrenamiento. El monto refleja tanto la cantidad de obras afectadas, se dice que más de 500.000 títulos, como el riesgo legal asociado a usar material pirateado, incluso si el modelo que lo usa luego genera contenido completamente nuevo.

Entonce el precedente es: la legalidad del dataset importa tanto como la legalidad del resultado. No alcanza con tener un modelo que no copie, si el material con el que se lo formó fue obtenido sin permiso. La industria tomó nota, y desde entonces, el concepto de “higiene de datos” se volvió parte del vocabulario obligado de cualquier proyecto serio de IA generativa.

¿Qué va a pasar con estos juicios?

Me parece que, teniendo en cuenta lo que paso en casos anteriores, lo que puede pasar es:

• Se pueden ganar los casos que demuestren claramente que se usaron datos protegidos sin permiso para entrenar al modelo. Eso ya lo vimos con otros casos similares, y la jurisprudencia está más “caliente” con ese tema.

• Pero va a ser mucho más difícil que los casos prosperen por el solo hecho de que el output “suena parecido” al autor. Y aquí entra la idea de que durante el entrenamiento los datos se diluyen: se mezclan, transforman y pierden su forma original, lo que hace que probar que un output es “la obra original” sea más difícil. En muchos análisis legal‑técnicos se habla de “memorization vs regurgitation” del modelo. En resumen, por mas que para Martin su obra es única y original, se convierte en una mota de polvo el el conjunto de entrenamiento.

• Sin embargo, el ejemplo del esquema de secuela generado por ChatGPT muestra que cuando el output es muy cercano, casi un derivado plausible, entonces sí puede abrirse la puerta a una infracción. Si hay una fallo en contra de OpenAI, es solo el inicio de una larga batalla y creo que todos podemos apostar a quien ganará al final.

Pero.., IMPORTANTE: Usar IA no te exime de responsabilidad

Y aquí viene lo relevante: independientemente de lo que diga la justicia sobre OpenAI, si vos usás una IA para generar contenido y lo publicás como propio, la responsabilidad es tuya.

No podés escudarte en “lo hizo ChatGPT”. Porque al final, quien firma, publica, distribuye eres vos. Y la justicia, o tus lectores, docentes o jefes, van a pedir cuentas.

Así que sí: cuando uses IA, pensá como autor: ¿cómo se entrenó el modelo? ¿Es mio el output o lo estoy publicando sin verificar? ¿La IA fue una herramienta que me ayudó a expresar mi idea mas rápido y mejor, pero sigue siendo “mi idea”?.

La culpa al final es tuya. Me lo dijo ChatGPT.

Punto de encuentro con la Inteligencia Artificial en Salta
Guillermo Furió

Batalla legalCuando ChatGPT escribió una secuela de Juego de Tronos

Diferenciación conceptual: infracción por Input vs. infracción por Output

Caso 1, Martin vs OpenAI

Caso 2, Anthropic: Problema con los datos

¿Qué va a pasar con estos juicios?

Pero.., IMPORTANTE: Usar IA no te exime de responsabilidad

Batalla legalCuando ChatGPT escribió una secuela de Juego de Tronos

Diferenciación conceptual: infracción por Input vs. infracción por Output

Caso 1, Martin vs OpenAI

Caso 2, Anthropic: Problema con los datos

¿Qué va a pasar con estos juicios?

Pero.., IMPORTANTE: Usar IA no te exime de responsabilidad

Caso 1, Martin vs OpenAI