Garrigues Digital_

Innovación legal en la economía 4.0

 

Garrigues

ELIGE TU PAÍS / ESCOLHA O SEU PAÍS / CHOOSE YOUR COUNTRY / WYBIERZ SWÓJ KRAJ / 选择您的国家

La importancia de la propiedad intelectual y el ‘data mining’ en el desarrollo de la IA y ChatGPT: la tupida red de las arañas de internet

Carolina Pina y ChatGPT

Minería de datos - inteligencia artificial

 

La minería de datos (o ‘data mining’, en la terminología anglosajona) plantea grandes retos desde la perspectiva de la propiedad intelectual al poder entrar en conflicto con los derechos de autor y el derecho ‘sui generis’ sobre las bases de datos.

ChatGPT es un modelo de lenguaje artificial basado en técnicas de aprendizaje automático y procesamiento del lenguaje natural (NLP). A partir de una base de datos de una enorme cantidad de información disponible en Internet, es capaz de responder a las preguntas de los usuarios. Es un modelo tan revolucionario que para muchos tendrá el mismo impacto que la invención de la imprenta.

El entrenamiento de ChatGPT parte de un conjunto de datos masivo formado por más de 45 TB de información extraído de Internet, incluyendo noticias, textos, libros, sitios web o publicaciones de redes sociales. Es decir, el modelo de lenguaje no está conectado a Internet, sino que parte de un conjunto de datos almacenados, que no están actualizados en tiempo real.

La minería de datos es absolutamente clave en el desarrollo de la IA y de ChatGPT. Y, para constatarlo, qué mejor que preguntarle al propio ChatGPT, “quien” nos da la razón y responde lo siguiente: “En resumen, la minería de datos es una herramienta importante para la IA y para ChatGPT, ya que permite mejorar la calidad de las respuestas que ofrece a los usuarios y personalizar las interacciones según las necesidades de cada usuario”.

Es decir, sin los datos obtenidos a través del data mining (extracción masiva de los datos disponibles en internet) no podrían desarrollarse muchos de los negocios basados en IA. Sin embargo, la minería de datos plantea grandes retos desde la perspectiva de propiedad intelectual porque puede entrar en conflicto con los derechos de autor y el derecho sui generis sobre las bases de datos. Por ello, salvo que esta actividad esté amparada por una licencia o un límite a estos derechos, puede conllevar el riesgo de infracción y con ello del ejercicio de las acciones legales de cesación e indemnización.

Ante esta situación, formulamos el siguiente promt a ChatGPT: ¿puede implicar la infracción de propiedad intelectual la minería de datos por ChatGPT?

Su respuesta:

“La minería de datos por sí misma no implica necesariamente la infracción de propiedad intelectual. Sin embargo, es posible que la minería de datos por parte de ChatGPT pueda implicar la infracción de derechos de propiedad intelectual si los datos que se están utilizando para el entrenamiento de ChatGPT no son de dominio público o si se están utilizando sin el permiso de sus propietarios.

Por ejemplo, si ChatGPT está utilizando datos de una empresa sin su permiso para entrenar sus modelos de inteligencia artificial, esto podría constituir una infracción de la propiedad intelectual de la empresa. Del mismo modo, si ChatGPT está utilizando datos de un sitio web que están protegidos por derechos de autor, esto podría ser considerado como una infracción de propiedad intelectual.

Es importante que las empresas que utilizan técnicas de minería de datos como ChatGPT se aseguren de que tienen el derecho legal para utilizar los datos que están utilizando y de que están cumpliendo con todas las leyes y regulaciones aplicables. Esto puede incluir la obtención del permiso de los propietarios de los datos o la utilización de datos que son de dominio público”.

Eso sí, luego hace una advertencia:

“Como modelo de lenguaje, ChatGPT es una herramienta que puede ser utilizada por distintas personas o entidades, incluyendo a su dueño, OpenAI. Sin embargo, OpenAI no es responsable del uso que los usuarios hagan de ChatGPT”.

Ante esta imprecisa respuesta de ChatGPT, conviene exponer el nuevo marco jurídico de la Unión Europea sobre esta cuestión. La Directiva del Mercado Único Digital 2019/790 (DMUD), que fue objeto de transposición en España a través del Real Decreto-ley 24/2021, de 2 de noviembre, define la minería de datos como toda técnica analítica automatizada destinada a analizar textos y datos en formato digital a fin de generar información que incluye, sin carácter exhaustivo, pautas, tendencias o correlaciones.

La DMUD establece dos límites a los derechos de propiedad intelectual en relación con la minería de datos:

  1. Una excepción obligatoria para las universidades y otros organismos de investigación, respecto del derecho exclusivo de reproducción y del derecho de prohibir la extracción de una base de datos.  En general, esta excepción está limitada a meros fines de investigación y no pueden disfrutarla las entidades privadas que persigan un ánimo de lucro, como parece ser finalmente el caso de OpenAI.
  2. En el caso de empresas privadas esta excepción o limitación solo debe aplicarse cuando los titulares de derechos no se hayan reservado de forma adecuada los derechos de hacer reproducciones y extracciones con fines de minería de datos. La UE permite el web scraping mediante técnicas analíticas por aquellos que tengan un acceso legítimo a la obra. No obstante, los titulares de dichas obras podrán restringir su uso realizando una reserva expresa de su derecho (opt-out) a través de medios de lectura mecánica (como el robot txt). Si existe un opt-out de los titulares, ChatGPT debería tener la correspondiente autorización para realizar extracciones y reproducciones. Es decir, los titulares de derechos pueden decidir cerrar la puerta de su casa (webs) a través de medios de lectura mecánica, pero si la abren a las arañas de las empresas de IA será lícita la extracción de los contenidos de su web.
  3. Para que operen estas excepciones, en todo caso, se exige que el acceso al contenido sea lícito, por ejemplo, porque esté accesible en internet de forma gratuita cuando se realice el llamado web scraping.

En definitiva, la UE permite el web scraping mediante técnicas analíticas por aquellos que tengan un acceso legítimo a la obra. No obstante, los titulares de dichas obras podrán restringir el uso comercial realizando una reserva expresa de su derecho (opt-out) a través de medios de lectura mecánica cuando. Si existe un opt-out de los titulares, será necesario obtener la correspondiente autorización para realizar extracciones y reproducciones de contenido protegido por propiedad intelectual, por lo que la última palabra podrán tenerla los titulares del contenido cuando el uso sea comercial.

Obviamente, cuestión distinta será si los outputs generados se pueden considerar una obra nueva o una transformación o reproducción de los inputs utilizados por la IA en el marco de las excepciones expuestas. En el supuesto de que sea una mera transformación o reproducción podría existir infracción de los derechos de propiedad intelectual por parte de los outputs.

La última versión de la propuesta de Reglamento de Inteligencia Artificial remitida al Pleno del Parlamento Europeo incluye como novedad que los “proveedores de los foundation models, entre los que se encuentra ChatGPT, deberán documentar y poner a disposición del público un resumen suficientemente detallado del uso de los datos de entrenamiento protegidos por la legislación sobre derechos de autor.

En todo caso, nos encontramos en un momento de gran inseguridad jurídica y habrá que seguir muy de cerca el devenir de la regulación y de las resoluciones de los tribunales sobre esta materia.

 

Nota: Los términos de uso de ChatGPT obligan a informar de que el output ha sido creado “en parte” por ChatGPT y se debe informar de manera activa de la participación de la IA. Por ello, he hecho constar en este post que la autoría le corresponde también a ChatGPT, identificando el contenido creado por IA en cursiva.