OpenAI ha utilizado contenido con copyright para entrenar sus modelos: ahora se enfrenta a una oleada de demandas

OpenAI sigue acumulando demandas por entrenar sus modelos de inteligencia artificial con contenido protegido por derechos de autor. En los últimos meses, medios estadounidenses como The Intercept y The New York Times acusaron a la compañía dirigida por Sam Altman de utilizar artículos de su propiedad sin autorización. Ahora, la segunda empresa de periódicos más grande del país también ha decidido tomar acciones legales contra la tecnológica.

Ocho publicaciones que se encuentran bajo el paraguas del gigante Alden Global han presentado este martes una demanda en un tribunal federal de Nueva York contra OpenAI y su principal socio estratégico, Microsoft. El texto legal acusa a las mencionadas firmas de alimentar sus productos de IA generativa con “millones” de artículos protegidos por copyright y exige una compensación económica, pero no antes de que el caso sea tratado en un juicio con jurado.

ChatGPT y el modelo de negocio de los periódicos demandantes

La demanda de los periódicos de Alden señala que ChatGPT y Copilot mostraban el texto de artículo que se encontraban detrás de un muro de pago. Esto, según los demandantes, se tradujo en al menos dos problemas: por un lado, no siempre se citaba la fuente de la información; por otro lado, muchos lectores dejaron de pagar sus suscripciones. Las publicaciones aseguran que los mencionados chatbots causaron un impacto negativo en su modelo de negocio.

De acuerdo a Axios, la demanda también hace referencia a las “alucinaciones” que tienen los chatbots. Como sabemos, uno de los grandes problemas del estado actual de la IA generativa es que inventa cosas. En este sentido, el documento legal señala que ChatGPT inventó que The Denver Post había publicado acerca de investigaciones médicas relacionadas a que fumar puede ser una cura para el asma, tema que, según afirman, nunca existió en el periódico.

La demanda, impulsada por dos de los bufetes de abogados elegidos también por The Times, por ahora incluye los periódicos New York Daily News, Chicago Tribune, Orlando Sentinel, South Florida Sun Sentinel, San Jose Mercury News, The Denver Post, Orange County Register y St. Paul Pioneer Press. Se trata de ocho de las sesenta marcas que controla Alden Global Capital, por lo que también cabe la posibilidad de que en el futuro se sumen alguna de sus otras publicaciones.

Entrenar modelos de IA, un desafío cada vez más complicado

Estamos siendo testigos del descomunal crecimiento de la industria de la IA, pero también de los retos que aparecen en el horizonte. Los chatbots que casi todos conocemos tienen información sobre un amplio abanico de temas. Para conseguirlo, las compañías que los desarrollaron han tenido que recurrir a una ingente cantidad de datos. Todo parece indicar que algunas piezas son de dominio público, mientras que otras todavía están protegidas por derechos de autor.

Cabe señalar que desde que OpenAI adoptó un enfoque más comercial, alejándose de la filosofía abierta con la que fue fundada, muchos detalles de sus tecnologías se mantienen en secreto. Lo cierto es que no sabemos con qué datos exactamente ha sido entrenado, por ejemplo, el prodigioso GPT-4. Sin embargo, la compañía reconocía ante el parlamento británico que “sería imposible entrenar los principales modelos de IA de hoy en día sin usar materiales con copyright”.

En Xataka

Es oficial: Estados Unidos activa la prohibición de TikTok en nueve meses salvo que la plataforma pase a sus manos

Tendremos que esperar para saber el desenlace de los procesos judiciales que ahora están en marcha. Mientras tanto, eso sí, OpenAI ha comenzado a construir alianzas con diversos grupos editoriales para poder acceder a sus contenidos. El objetivo aquí es claro: garantizar cierto caudal de datos para poder entrenar sus modelos. Entre los acuerdos más recientes encontramos a Associated Press (AP), Axel Springer, Prisa y Le Monde.

Imágenes | Wirestock | Solen Feyissa | Emiliano Vittoriosi

En Xataka | ChatGPT se inventa datos y eso es ilegal en Europa. Así que una organización se ha propuesto arreglarlo con una demanda