OpenAI accusée de former GPT-4o sur les livres payants d'O'Reilly Media sans accord de licence

**Jade Emy** · 21/09/2023, 08h58

George R.R, romancier de "Game of Thrones", John Grisham et d'autres grands auteurs américains poursuivent OpenAI pour des questions de droits d'auteur.

Une association professionnelle d'auteurs américains a intenté un procès à OpenAI devant le tribunal fédéral de Manhattan au nom d'écrivains de renom tels que John Grisham, Jonathan Franzen, George Saunders, Jodi Picoult et le romancier de "Game of Thrones" George R.R. Martin, accusant la société d'avoir illégalement entraîné son populaire chatbot ChatGPT basé sur l'intelligence artificielle à partir de leurs œuvres.

La proposition de recours collectif déposée mardi en fin de journée par l'Authors Guild s'ajoute à plusieurs autres actions intentées par des écrivains, des propriétaires de code source et des artistes visuels contre des fournisseurs d'IA générative. Outre OpenAI, soutenu par Microsoft, des actions similaires sont en cours contre Meta Platforms et Stability AI au sujet des données utilisées pour entraîner leurs systèmes d'IA. Parmi les autres auteurs concernés par ce dernier procès figurent Michael Connelly, auteur de "The Lincoln Lawyer", et David Baldacci et Scott Turow, auteurs de romans juridiques.

OpenAI et d'autres défendeurs de l'IA ont déclaré que leur utilisation de données d'entraînement tirées de l'internet constituait un usage loyal en vertu de la loi américaine sur le droit d'auteur. Un porte-parole d'OpenAI a déclaré mercredi que la société respectait les droits des auteurs et qu'elle avait "des conversations productives avec de nombreux créateurs dans le monde entier, y compris l'Authors Guild".

Nom : 1.PNG
Affichages : 2756
Taille : 21,0 Ko

Mary Rasenberger, PDG de l'Authors Guild, a déclaré dans un communiqué que les auteurs "doivent avoir la possibilité de contrôler si et comment leurs œuvres sont utilisées par l'IA générative" afin de "préserver notre littérature". Dans son action en justice, l'Authors Guild affirme que les ensembles de données utilisés pour entraîner le grand modèle linguistique d'OpenAI à répondre à des invites humaines comprenaient des textes tirés des livres des auteurs, qui auraient pu provenir de dépôts illégaux de livres "pirates" en ligne.

La plainte indique que ChatGPT a généré des résumés précis des livres des auteurs lorsqu'on lui a demandé, ce qui indique que leur texte est inclus dans sa base de données. La plainte fait également état de préoccupations croissantes quant à la possibilité que les auteurs soient remplacés par des systèmes tels que ChatGPT, qui "génèrent des livres électroniques de mauvaise qualité, se font passer pour des auteurs et supplantent les livres écrits par des êtres humains".

Source : Plainte d'Authors Guild

Et vous ?

Pensez-vous que cette plainte soit légitime ou crédible ?

Quel est votre avis sur le sujet ?

Voir aussi :

Des milliers d'auteurs s'opposent à l'exploitation de leur travail sans permission ni rémunération par l'IA générative, certains ont déjà intenté des actions en justice contre OpenAI

Les auteurs veulent être reconnus et indemnisés par les entreprises d'IA qui utilisent leurs œuvres sans leur consentement, affirment des milliers de créateurs

Le syndicat SAG-AFTRA vote à l'unanimité pour étendre sa grève à l'industrie des jeux vidéo, "l'IA met nos membres en danger en réduisant leur possibilité de travailler", déclare sa présidente

**Bruno** · 06/10/2023, 19h55

OpenAI justifie pourquoi les données collectées pour la formation des modèles d’IA constituent selon elle un usage loyal
et non une infraction

OpenAI a soumis une réponse à l’Office américain des brevets et des marques (USPTO) en réponse à leur demande de commentaires sur la protection de la propriété intellectuelle pour l’innovation en intelligence artificielle. La soumission explique pourquoi les données collectées pour l’entraînement de ses outils d’IA constituent un usage loyal et non une infraction.

Dans sa production, OpenAI répond principalement à la question suivante : « Comment le langage statutaire existant et la jurisprudence connexe traitent-ils de manière adéquate la légalité de l’utilisation d’un algorithme ou d’un processus d’IA qui apprend sa ou ses fonctions en ingérant de grands volumes de données protégées par le droit d’auteur ? ».

Nom : openAi1.jpg
Affichages : 6809
Taille : 8,7 Ko

En vertu de la loi actuelle, l'entraînement des systèmes d'IA constitue un usage loyal. II. Les considérations politiques qui sous-tendent la doctrine de l'usage loyal soutiennent la conclusion selon laquelle l'entraînement des systèmes d'IA constitue un usage loyal. L'incertitude juridique sur les implications en matière de droit d'auteur de l'entraînement des systèmes d'IA impose des coûts substantiels aux développeurs d'IA et devrait donc être résolue de manière autoritaire.

OpenAI, LP est une société de recherche en intelligence artificielle (IA) basée à San Francisco dont la mission est de veiller à ce que l'intelligence artificielle générale ("AGI") profite à l'ensemble de l'humanité, et qui tente de construire une AGI sûre et bénéfique.

Nous ne prétendons pas que les systèmes d'IA sont invariablement bénéfiques ou qu'ils ne portent pas atteinte au droit d'auteur. Nous abordons plutôt la question étroite de savoir si l'entraînement des systèmes d'IA sur des données protégées par le droit d'auteur constitue une violation du droit d'auteur. En conséquence, nous pensons que les systèmes d'IA suscitent des inquiétudes valables, mais qu'il est préférable d'utiliser d'autres outils juridiques et politiques pour y répondre.

Le travail d'OpenAI s'articule principalement autour de trois domaines : la recherche et le développement de capacités techniques, la recherche et le développement de la sécurité de l'IA et le travail politique. Dans sa réponse, Open s’appuie sur son expérience de l'utilisation de vastes ensembles de données accessibles au public, y compris des œuvres protégées par le droit d'auteur.

Des milliers d’auteurs demandent aux entreprises d’IA de respecter leurs droits d’auteur et de les payer pour l’utilisation de leurs œuvres dans l’entraînement des modèles de langage. Ils dénoncent l’injustice et le piratage dont ils sont victimes, alors que leurs revenus sont en baisse. Les entreprises d’IA se défendent en affirmant qu’elles utilisent des contenus sous licence ou publics. La collecte de textes sur le web est une source de conflit entre les créateurs, les plateformes et les acteurs de l’IA.

Plus de 8 000 auteurs, dont des sommités telles que James Patterson, Margaret Atwood et Jonathan Franzen, ont signé une lettre ouverte demandant aux dirigeants des six principales entreprises spécialisées dans l'IA de ne pas utiliser leurs œuvres pour des modèles d'entraînement sans avoir obtenu au préalable leur consentement et offert une compensation.

La lettre, publiée par l'organisation d'écrivains professionnels The Authors Guild, est adressée aux patrons d'OpenAI, d'Alphabet, de Meta, de Stability AI, d'IBM et de Microsoft. Elle interpelle les PDG sur « l'injustice inhérente » à l'utilisation des œuvres des auteurs pour entraîner leurs grands modèles de langage sans consentement, crédit ou compensation. « Ces technologies imitent et régurgitent notre langage, nos histoires, notre style et nos idées. Des millions de livres, d'articles, d'essais et de poèmes protégés par le droit d'auteur constituent la "nourriture" des systèmes d'IA, des repas sans fin pour lesquels il n'y a pas de facture », peut-on lire dans la lettre.

« Vous dépensez des milliards de dollars pour développer la technologie de l'IA. Il n'est que juste que vous nous indemnisiez pour l'utilisation de nos écrits, sans lesquels l'IA serait banale et extrêmement limitée. »

En octobre de l’année dernière, le développeur Tim Davis, professeur d'informatique et d'ingénierie à l'université A&M du Texas, a affirmé sur Twitter que GitHub Copilot, un assistant de programmation basé sur l'IA, « émet de gros morceaux de mon code protégé par le droit d'auteur, sans attribution, sans licence LGPC ».

Pas du tout, selon Alex Graveley, ingénieur principal chez GitHub et inventeur de Copilot, qui a répondu que « le code en question est différent de l'exemple donné. Semblable, mais différent ». Cela dit, a-t-il ajouté, « c'est vraiment un problème difficile. Les solutions évolutives sont les bienvenues. »

Pour OpenAI, les plaintes pour violation du droit d'auteur sont irrecevables

OpenAI a demandé en aout à un tribunal fédéral de Californie de rejeter les plaintes pour violation du droit d'auteur qui le visent depuis peu. Plusieurs auteurs poursuivent également la OpenAI pour avoir utilisé des copies pirates de leurs livres afin d'entraîner ses modèles de langage, dont le plus célèbre est ChatGPT. Les auteurs affirment que cette utilisation non autorisée est en violation de plusieurs lois fédérales des États-Unis, dont celles sur le droit d'auteur et le DMCA (Digital Millennium Copyright Act). Mais OpenAI conteste ces allégations et a déposé des motions de rejet dans lesquelles il demande au tribunal de Californie de rejeter toutes les plaintes sauf une.

OpenAI, qui bénéficie du soutien de Microsoft, s'est attaqué à ce qu'il a appelé des « revendications accessoires » dans les poursuites, déclarant au tribunal fédéral de Californie que le texte généré par ChatGPT ne violait pas les droits des auteurs sur les livres. En effet, le laboratoire d'IA de San Francisco fait face à un nombre très important de plaintes intentées par des milliers d'auteurs pour violation du droit d'auteur et pour d'autres formes de violations. Les personnalités les plus connues parmi les plaignants sont la comédienne Sarah Silverman, l'écrivain et éditeur Paul Tremblay, la romancière Mona Awad et l'écrivain de science-fiction Richard Kadrey.

« Les autres plaintes des auteurs - qui portent sur la violation du droit d'auteur par personne interposée, la violation du Digital Millennium Copyright Act (DMCA), la concurrence déloyale, la négligence et l'enrichissement sans cause - doivent être supprimées des poursuites afin que ces affaires n'aillent pas jusqu'au stade de la découverte et au-delà avec des théories de responsabilité juridiquement infirmes », a fait valoir OpenAI. Il a souligné la valeur et le potentiel de l'IA - en particulier de son grand modèle de langage (LLM) ChatGPT - dans l'amélioration de la productivité, l'aide au codage informatique et la simplification des tâches quotidiennes.

En vertu de la loi actuelle, l'entraînement des systèmes d'intelligence artificielle constitue un usage loyal

OpenAI affirme que l’utilisation loyale des données collectées pour l’entraînement de ses outils d’IA exige une application correcte des facteurs d’usage loyal, en particulier compte tenu de la nature hautement transformatrice des systèmes d’apprentissage de l’IA. Selon l’entreprise, cette conclusion est renforcée par la jurisprudence existante qui considère que la reproduction d’œuvres protégées par le droit d’auteur en tant qu’étape du processus d’analyse informatique des données constitue une utilisation loyale de ces œuvres.

Les systèmes d'IA peuvent s'entraîner sur de nombreux supports différents. L'application de ce critère variera donc au cas par cas. Selon OpenAI, il ne devrait pas jouer « un rôle important » dans la détermination de l'usage loyal. « La quantité et le caractère substantiel de la partie utilisée par rapport à l'ensemble de l'œuvre protégée par le droit d'auteur ». Ce facteur demande si « la quantité et la valeur des matériaux utilisés » sont raisonnables par rapport au but de la copie.

Les considérations politiques soutiennent la détermination de l'usage loyal

Selon OpenAI, les systèmes d'IA présentent d'énormes avantages potentiels pour la société. Il s’attend à ce que des modèles de langage contribuent à terme à l'exécution d'un grand nombre de tâches utiles telles que :

l'analyse de la littérature publiée ;
la production de rapports médicaux
l'autocomplétion de codes logiciels ;
l'assistance générale à la rédaction et l'autocomplétion ;
la traduction de langues ;
la génération d'œuvres d'art ;
l'amélioration des jeux vidéo ;
les assistants numériques ;
réponses à des questions médicales.

La doctrine de l'usage loyal « 'permet aux tribunaux d'éviter une application rigide de la loi sur le droit d'auteur lorsque, à l'occasion, elle étoufferait la créativité même que cette loi est censée encourager' ». Les systèmes d'IA sont extrêmement prometteurs pour l'expression créative et l'innovation économique générale.

Les obstacles au droit d'auteur pour la formation des systèmes d'IA auraient des « ramifications désastreuses » et « pourraient mettre en péril la valeur sociale de la technologie, ou pousser l'innovation vers une juridiction étrangère où les contraintes en matière de droit d'auteur sont moins strictes ». Nous soutenons donc que de telles barrières « étoufferaient la créativité même que la loi [sur le droit d'auteur] est conçue pour encourager » et retarderaient « le progrès de la science et des arts utiles ».

L'incertitude quant aux implications en matière de droit d'auteur impose des coûts aux développeurs d'IA

Pour les raisons susmentionnées, OpenAI estime que que les tribunaux jugeraient et devraient juger que l'entraînement des systèmes d'IA sur des œuvres protégées par le droit d'auteur constitue un usage loyal. Toutefois, étant donné l'absence de jurisprudence en la matière, OpenAI se dit confronté avec d'autres développeurs d'IA à une incertitude juridique et à des coûts de mise en conformité considérables.

« Résoudre cette question en considérant l'entraînement des systèmes d'IA comme un usage loyal éliminerait l'incertitude dans ce domaine et supprimerait des obstacles substantiels au développement de systèmes d'IA innovants », déclare OpenAI.

Source : OpenAI

Et vous ?

Les systèmes d’apprentissage automatique d’OpenAI sont-ils vraiment « hautement transformatifs » ? Qu’est-ce qui selon vous pourrait justifier cette affirmation ?

à votre avis, les données collectées pour la formation des outils d’IA d’OpenAI sont-elles vraiment utilisées de manière loyale ?

La jurisprudence existante sur la reproduction d’œuvres protégées par le droit d’auteur en tant qu’étape du processus d’analyse informatique des données est-elle vraiment applicable aux systèmes d’apprentissage automatique ?

Quels sont les risques pour les artistes et les créateurs de contenu si les systèmes d’apprentissage automatique sont autorisés à utiliser des données protégées par le droit d’auteur sans autorisation ?

Voir aussi :

GitHub Copilot, l'assistant de programmation basé sur l'IA, sous le feu des critiques, un développeur affirme qu'il émet de nombreux bouts de son code protégé par le droit d'auteur

GitHub, Microsoft, OpenAI ne parviennent pas à se sortir du procès Copilot, le juge a refusé de rejeter deux plaintes dans l'affaire et a renvoyé la plupart des autres allégations

OpenAI conteste les affirmations des auteurs selon lesquelles chaque réponse de ChatGPT est une œuvre dérivée, l'entreprise affirme que ces plaintes sont irrecevables et demande leur rejet

**archqt** · 06/10/2023, 22h20

Pas évident, moi je lis des livres, imaginons des milliers. Ensuite j'écris un livre qui tient compte de mes lectures. Quelle différence avec l'entraînement de l'IA au final ?
Ensuite je comprends parfaitement les remarques de ceux dont les œuvres sont "pompées"

**onilink_** · 07/10/2023, 20h08

Envoyé par archqt

Pas évident, moi je lis des livres, imaginons des milliers. Ensuite j'écris un livre qui tient compte de mes lectures. Quelle différence avec l'entraînement de l'IA au final ?
Ensuite je comprends parfaitement les remarques de ceux dont les œuvres sont "pompées"

Absolument tout... ?

Comparer un LLM, un algorithme qui à la fâcheuse tendance à mémoriser ses entrées, mais qui ne connaît rien d'autre du monde que ces données la, avec un humain qui compresse et mémorise mal mais aussi de façon ultra subjective ses lectures tout en les mélangeant à son vécu... sérieusement?

Cela me semble très dangereux d'essayer de faire le lien entre les deux.

De plus il ne te faut pas une fraction de seconde pour pondre un livre. Et si tu fais du plagiat tu te prendras un procès.

OpenAI demandent à ce que leurs magouilles deviennent juridiquement légales. Cela n'apportera rien de bon pour personne, sauf pour eux.

**_toma_** · 08/10/2023, 18h28

La question du comité : "Comment justifiez-vous de la légalité de votre collecte de données ?"
La réponse d'openAI : "Nous vous assurons que cette collecte de données est loyale."

Et la suite de leur réponse :

L'incertitude juridique sur les implications en matière de droit d'auteur de l'entraînement des systèmes d'IA impose des coûts substantiels aux développeurs d'IA et devrait donc être résolue de manière autoritaire.

Non mais vous êtes sérieux les gars ? Vous voulez bien faire de la thune mais vous voulez pas en dépenser donc il faudrait prendre une décision autoritaire (qui fasse abstraction de la loi ?) qui aille dans votre sens. C'est vraiment ça la réponse ? Ça me semble tellement hallucinant que je me demande si je comprends bien la phrase.

**kain_tn** · 10/10/2023, 22h27

Envoyé par _toma_

La question du comité : "Comment justifiez-vous de la légalité de votre collecte de données ?"
La réponse d'openAI : "Nous vous assurons que cette collecte de données est loyale."

Et la suite de leur réponse :

Non mais vous êtes sérieux les gars ? Vous voulez bien faire de la thune mais vous voulez pas en dépenser donc il faudrait prendre une décision autoritaire (qui fasse abstraction de la loi ?) qui aille dans votre sens. C'est vraiment ça la réponse ? Ça me semble tellement hallucinant que je me demande si je comprends bien la phrase.

On ne devient pas milliardaire en dépensant de l'argent mais en demandant à ses petits copains de faire passer des lois, donner des contrats, etc. Sam Altman n'échappe pas à la règle.

**JRM73** · 10/10/2023, 14h35

@archqt

certes, mais toi, comme tu es un gars bien, tu les payes tes livres.

**Axel Mattauch** · 13/10/2023, 12h37

En vertu de la loi actuelle, l'entraînement des systèmes d'intelligence artificielle constitue un usage loyal

La loi actuelle prévoit la protection des droits d'auteur. La phrase est donc une pure esbroufe de lobbying: je te pollue le référentiel et je te conditionne pour tes décisions.

Il est bien possible que

les systèmes d'IA présentent d'énormes avantages potentiels pour la société

mais cet argument pourrait à la rigueur être écouté si ces systèmes étaient d’accès publics, gratuits, pour toute individu ou toute entreprise. L'argument serait: oui, je prélève gratuitement dans le fonds de la société, disons le mot, j'exproprie de force les individus, en contrepartie la collectivité en bénéficie.

Mais, non, nous sommes en pays capitaliste: je suis le plus fort (mon fric, mon lobbying, mes appuis politiques, la mafia a laquelle j'appartiens...) donc je m’approprie ce que je veux, il suffit de dire que c'est légal. Les bénéfices sont pour moi.

**Bruno** · 25/10/2023, 08h24

La presse écrite veut être payée pour les articles utilisés pour alimenter l’outil d’IA ChatGPT
elle exige une part du marché qui devrait atteindre 1300 million de dollars d'ici à 2032

Les journaux demandent une rémunération pour leurs données, qui sont précieuses à l’ère de l’IA. Certains ont installé un bloqueur pour empêcher que leur contenu soit collecté et utilisé par ChatGPT, l’outil d’IA construit par OpenAI. D’autres sont en pourparlers avec OpenAI pour que le chatbot affiche des liens vers leurs articles dans ses réponses. D’autres sources de données, comme Reddit et Twitter, cherchent également à monétiser leurs données ou à restreindre leur accès. Les analystes soulignent l’urgence et l’incertitude qui entourent l’avenir de l’information en ligne face à la transformation de l’Internet par l’IA générative.

Depuis des années, des entreprises technologiques telles qu'Open AI utilisent librement des articles de presse pour constituer des ensembles de données qui permettent à leurs modèles d’IA d'apprendre à reconnaître et à répondre avec fluidité aux questions humaines sur le monde. Mais alors que la quête pour développer des modèles d'IA de pointe est devenue de plus en plus frénétique, les éditeurs de journaux et autres propriétaires de données exigent une part du marché potentiellement gigantesque de l'IA générative, qui devrait atteindre 1300 millions de dollars d'ici à 2032.

Nom : Aivsauthor.jpg
Affichages : 5611
Taille : 31,9 Ko

Pour de nombreux experts du secteur de la technologie, ChatGPT pourrait changer à jamais l'édition et le journalisme. Ainsi, certains types de journalisme, comme les simples articles de sport et d'affaires, seraient particulièrement sensibles à l'automatisation. ChatGPT pourrait être la technologie numérique la plus importante à avoir un impact sur les éditeurs depuis les années 1980. Le chatbot créé par le laboratoire d'intelligence artificielle (IA) OpenAI peut répondre à des questions complexes et s'appuyer sur des recherches secondaires pour rédiger des textes « originaux ». Si l'information se trouve sur Internet, ChatGPT peut produire du contenu avec.

Mais alors que les chercheurs plongent dans le nouveau monde courageux des chatbots d'IA avancés, Springer Nature a déclaré en début d’année que les éditeurs doivent reconnaître leurs utilisations légitimes et établir des directives claires pour éviter les abus. L'entreprise a annoncé que des logiciels tels que ChatGPT ne pouvaient pas être crédités en tant qu'auteurs dans les articles publiés dans ses milliers de revues. Toutefois, Springer affirme qu'elle n'a aucun problème à ce que les scientifiques utilisent l'IA pour les aider à rédiger ou à générer des idées pour la recherche. Cela dit, cette contribution doit être correctement divulguée par les auteurs.

Deux auteurs américains ont poursuivi OpenAI devant le tribunal fédéral de San Francisco, affirmant dans un recours collectif proposé que la société avait abusé de leurs travaux pour « former » son populaire système d'intelligence artificielle générative ChatGPT. Dans le même temps, l’union européenne prépare une législation qui obligerait les outils d’intelligence artificielle comme ChatGPT à divulguer le matériel protégé par le droit d’auteur utilisé dans la construction de leurs systèmes, selon un nouveau projet de loi qui serait le premier ensemble de règles complet de l’Occident régissant le déploiement de l’IA.

Cette obligation permettrait aux éditeurs et aux créateurs de contenu de disposer d’une nouvelle arme pour demander une part des bénéfices lorsque leurs œuvres sont utilisées comme matériau source pour le contenu généré par l’IA par des outils comme ChatGPT. Au total, 561 des 1 149 éditeurs de presse interrogés par l'archive "homepages.news" ont demandé à OpenAI, Google AI ou l'organisation à but non lucratif Common Crawl de cesser de scanner leurs sites, ce qui représente 48,8 % de l'échantillon.

Ces trois organisations parcourent systématiquement les sites web pour recueillir les informations qui alimentent les robots de conversation génératifs tels que ChatGPT d'OpenAI et Bard de Google. Les éditeurs peuvent demander que leur contenu soit exclu par le biais de la convention robots.txt. Le système open source géré par "homepages.news" rassemble le fichier robots.txt de chaque site d'actualités deux fois par jour. Cette page est continuellement mise à jour avec les derniers résultats. Voici les totaux actuels pour chaque robot d'exploration.

Nom : crw.jpg
Affichages : 2600
Taille : 22,5 Ko

Depuis le mois d'août, au moins 535 organes de presse - dont le New York Times, Reuters et le Washington Post - ont installé un bloqueur qui empêche que leur contenu soit collecté et utilisé pour former le ChatGPT. Aujourd'hui, les discussions portent sur le paiement des éditeurs pour que le chatbot puisse proposer des liens vers des articles individuels dans ses réponses, ce qui profiterait aux journaux de deux manières : en leur fournissant un paiement direct et en augmentant potentiellement le trafic vers leurs sites web.

En juillet, OpenAI a signé un contrat de licence pour le contenu de l’Associated Press, qui lui servira à entraîner ses modèles d’IA. Selon deux sources proches des discussions, qui ont requis l’anonymat pour parler de sujets délicats, cette idée a également été évoquée dans les négociations actuelles, mais l’accent a été mis sur la possibilité de montrer des articles dans les réponses de ChatGPT.

Les entreprises d’IA font également face à des poursuites en matière de droits d’auteur

Outre les demandes de paiement, les grandes entreprises d'IA sont confrontées à une série de poursuites en matière de droits d'auteur de la part d'auteurs de livres, d'artistes et de développeurs de logiciels qui réclament des dommages-intérêts pour infraction, ainsi qu'une part des bénéfices. En août, OpenAI, qui bénéficie du soutien de Microsoft, a demandé à un tribunal fédéral de Californie de rejeter les plaintes pour violation du droit d'auteur qui le visent depuis peu.

Les plaignants affirment que l’utilisation non autorisée de leurs données est en violation de plusieurs lois fédérales des États-Unis, dont celles sur le droit d'auteur et le DMCA (Digital Millennium Copyright Act). Mais OpenAI a contesté ces allégations et a déposé des motions de rejet dans lesquelles il demande au tribunal de Californie de rejeter toutes les plaintes sauf une.

En avril, Elon Musk a commencé à facturer 42 000 dollars pour l'accès en masse aux messages publiés sur Twitter, qui étaient auparavant gratuits pour les chercheurs, après avoir affirmé que des sociétés d'intelligence artificielle avaient illégalement utilisé les données pour entraîner leurs modèles.

La décision d'Open AI de négocier peut refléter un désir de conclure des accords avant que les tribunaux n'aient l'occasion de se prononcer sur la question de savoir si les entreprises technologiques ont une obligation légale claire de concéder des licences - et de payer pour le contenu, a déclaré James Grimmelmann, professeur de droit numérique et de l'information à l'université Cornell.

Ces mesures témoignent d'un sentiment d'urgence et d'incertitude grandissant quant à la question de savoir qui tire profit des informations en ligne. L'IA générative étant sur le point de transformer la manière dont les utilisateurs interagissent avec l'internet, de nombreux éditeurs et autres entreprises considèrent le paiement équitable de leurs données comme une question existentielle.

En ce qui concerne la presse écrite, il est compréhensible que les éditeurs cherchent à être rémunérés pour leur travail. Cependant, il est important de noter que les articles utilisés pour alimenter l’outil d’IA ChatGPT sont souvent extraits d’archives publiques et accessibles à tous. Par conséquent, il serait peu probable que les éditeurs puissent obtenir une compensation financière pour ces articles.

En fin de compte, il est important que les entreprises technologiques et les éditeurs travaillent ensemble pour trouver un terrain d’entente qui profite à toutes les parties concernées. Les éditeurs peuvent envisager d’offrir un accès gratuit à leurs archives en échange d’une reconnaissance appropriée dans les produits finaux générés par l’IA. De même, les entreprises technologiques peuvent envisager de partager une partie des bénéfices générés par ces produits avec les éditeurs.

Sources : Palewi, Genlaw, Procès-verbal

Et vous ?

À votre avis, les entreprises technologiques devraient-elles être tenues de payer pour le contenu qu’elles utilisent pour entraîner leurs modèles d’IA ?

Pensez-vous que les éditeurs ont le droit de réclamer une compensation financière pour les articles extraits d’archives publiques et accessibles à tous ?

Comment les entreprises technologiques et les éditeurs peuvent-ils travailler ensemble pour trouver un terrain d’entente qui profite à toutes les parties concernées ?

Les lois actuelles sur le droit d’auteur sont-elles suffisantes pour protéger les créateurs de contenu contre l’utilisation non autorisée de leurs données par les entreprises technologiques ?

Voir aussi :

Le New York Times envisage d'initier une action en justice contre OpenAI pour l'obliger à effacer les données d'entraînement de ChatGPT, le média dit non à l'usage de son contenu sans son accord

Musk s'engage à poursuivre Microsoft en justice, l'accusant de s'être « entraînée illégalement avec les données de Twitter », tandis qu'elle abandonne l'intégration de Twitter de sa plateforme pub

Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT. Selon eux, les livres sont un « ingrédient clé » du chabot IA

**denisys** · 25/10/2023, 12h08

La presse écrite veut être payée pour les articles utilisés pour alimenter l'outil d'IA ChatGPT ,

Est ce que la presse écrite paye les outils d'IA ChatGPT ,
quand ils font la une de leurs journaux ??

***

Conflit Israël-Hamas : quand une image générée par l’IA s’invite en une de Libération

https://www.lefigaro.fr/conflit-isra...ation-20231020

**JP CASSOU** · 25/10/2023, 15h57

La presse écrite n'a rien à faire sur le net. Ou doit payer pour les liens menant à des paywalls

**Jade Emy** · 13/12/2023, 09h41

Meta a utilisé des livres protégés par le droit d'auteur pour l'entraînement de l'IA malgré les avertissements de ses propres avocats, selon une nouvelle plainte des auteurs.

Les avocats de Meta Platforms l'avaient prévenue des dangers juridiques liés à l'utilisation de milliers de livres piratés pour entraîner ses modèles d'IA, mais l'entreprise l'a quand même fait, selon un nouveau dépôt dans un procès pour violation du droit d'auteur initialement intenté cet été.

Le nouveau dossier déposé consolide deux actions en justice intentées contre le propriétaire de Facebook et d'Instagram par la comédienne Sarah Silverman, le lauréat du prix Pulitzer Michael Chabon et d'autres auteurs de renom, qui allèguent que Meta a utilisé leurs œuvres sans autorisation pour entraîner son modèle de langage d'intelligence artificielle, Llama.

Le mois dernier, un juge californien a rejeté une partie de l'action intentée par M. Silverman et a indiqué qu'il autoriserait les auteurs à modifier leurs revendications. La nouvelle plainte comprend des registres de conversation d'un chercheur affilié à Meta discutant de l'acquisition de l'ensemble de données dans un serveur Discord, un élément de preuve potentiellement important indiquant que Meta était conscient que son utilisation des livres n'était peut-être pas protégée par la loi américaine sur le droit d'auteur.

Dans les journaux de discussion cités dans la plainte, le chercheur Tim Dettmers décrit ses allers-retours avec le service juridique de Meta pour savoir si l'utilisation des fichiers de livres comme données d'entraînement serait "légalement acceptable". "Chez Facebook, de nombreuses personnes, dont moi-même, souhaitent travailler avec le fichier, mais dans sa forme actuelle, nous ne pouvons pas l'utiliser pour des raisons juridiques", a écrit Tim Dettmers en 2021, faisant référence à un ensemble de données que Meta a reconnu avoir utilisé pour entraîner sa première version de Llama, selon la plainte.

Le mois précédent, Dettmers a écrit que les avocats de Meta lui avaient dit que "les données ne peuvent pas être utilisées ou que les modèles ne peuvent pas être publiés s'ils sont entraînés sur ces données", selon la plainte. Bien que M. Dettmers ne décrive pas les préoccupations des avocats, ses homologues dans le chat identifient les "livres avec des droits d'auteur actifs" comme la plus grande source probable d'inquiétude. Ils affirment que la formation sur les données devrait "relever de l'usage loyal", une doctrine juridique américaine qui protège certaines utilisations sans licence d'œuvres protégées par le droit d'auteur.

M. Dettmers, doctorant à l'université de Washington, a déclaré qu'il n'était pas en mesure de commenter ces allégations dans l'immédiat.

Cette année, les entreprises technologiques ont fait l'objet d'une série de poursuites de la part de créateurs de contenu qui les accusent d'avoir détourné des œuvres protégées par le droit d'auteur pour créer des modèles d'IA générative qui ont fait sensation dans le monde entier et suscité une frénésie d'investissements. Si elles aboutissent, ces affaires pourraient freiner l'engouement pour l'IA générative, car elles pourraient augmenter le coût de construction des modèles gourmands en données en obligeant les entreprises d'IA à indemniser les artistes, les auteurs et les autres créateurs de contenu pour l'utilisation de leurs œuvres. Dans le même temps, les nouvelles règles provisoires européennes régissant l'intelligence artificielle pourraient obliger les entreprises à divulguer les données qu'elles utilisent pour former leurs modèles, ce qui les exposerait à un risque juridique accru.

Meta a publié une première version de son modèle linguistique Llama en février, ainsi qu'une liste d'ensembles de données utilisés pour l'entraînement, dont "la section Books3 de ThePile". La personne qui a assemblé cet ensemble de données a déclaré ailleurs qu'il contenait 196 640 livres, selon la plainte. L'entreprise n'a pas divulgué les données d'entraînement pour sa dernière version du modèle, Llama 2, qu'elle a mis à disposition pour un usage commercial cet été. Llama 2 est gratuit pour les entreprises comptant moins de 700 millions d'utilisateurs actifs mensuels. Son lancement a été perçu dans le secteur technologique comme pouvant changer la donne sur le marché des logiciels d'IA générative, menaçant de remettre en cause la domination d'acteurs tels qu'OpenAI et Google qui font payer l'utilisation de leurs modèles.

Source : Tim Dettmers, Université de Washington

Et vous ?

Pensez-vous que cette nouvelle plainte est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

OpenAI et Meta accusés d'avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement comme données d'entraînements de leurs IA. Les plaintes de ce type se multiplient

Meta a entraîné son IA à l'aide de vos publications publiques sur Facebook et Instagram

Des milliers d'auteurs s'opposent à l'exploitation de leur travail sans permission ni rémunération par l'IA générative. Certains ont déjà intenté des actions en justice contre OpenAI

**Patrick Ruiz** · 17/12/2023, 11h31

OpenAI suspend le compte de ByteDance pour usage des données de GPT aux fins d’entraînement d’un modèle d’IA concurrent, selon un rapport
Qui ravive la controverse autour du droit d’auteur

OpenAI a procédé à la suspension du compte de l’entreprise chinoise ByteDance. Motif : utilisation des données de GPT aux fins d’entrainement d’un modèle d’intelligence artificielle concurrent dans le cadre du projet dénommé Seed. Le rapport qui intervient dans un contexte où OpenAI fait l’objet de multiples accusations pour utilisation du contenu de tiers sans leur accord ravive la controverse autour du droit d’auteur.

En effet, OpenAI reproche à ByteDance d’être en violation des conditions d’utilisation de son service qui stipulent que « la sortie de son modèle d’intelligence artificielle ne peut être exploitée pour développer un modèle d’IA concurrent. » C’est en droite ligne avec cet état de choses que le journaliste Alex Health rapporte qu’OpenAI a procédé à la suspension du compte de ByteDance – l’entreprise chinoise connue comme éditrice de TikTok.

Nom : 1.png
Affichages : 3268
Taille : 65,5 Ko

La décision d’OpenAI est sujette à controverse étant donné qu’elle s’apparente à une revendication de du droit d’auteur sur la sortie produite par GPT. Or de récentes directives de l’US Copyright Office stipulent que « le contenu généré par l’intelligence artificielle ne peut être protégé par le droit d’auteur que dans certaines conditions spécifiques. » Et c’est d’ailleurs ce que de nombreux observateurs n’ont pas manqué de souligner.

Nom : 2.png
Affichages : 2224
Taille : 49,6 Ko

« Ils entraînent tous deux leurs plateformes à partir de nos données mais ne laissent pas une autre entreprise utiliser leurs outils alors qu'ils se servent tous deux (OpenAI et Microsoft) des outils Open Source mis sur pied gratuitement par d’autres développeurs », souligne un internaute.

Nom : 3.png
Affichages : 2231
Taille : 46,3 Ko

Le New York Times envisage de même de lancer une action en justice contre OpenAI pour utilisation de son contenu aux fins d’entrainement de ses modèles d’intelligence artificielle

Le New York Times envisage de lancer une action en justice contre OpenAI afin de l’obliger à effacer les données d’entraînement de ChatGPT. Le département juridique du média étudie la possibilité de poursuivre OpenAI pour protéger les droits de propriété intellectuelle associés à ses reportages. En effet, le journal américain est contre l’utilisation de son contenu comme données d’entraînement pour une intelligence artificielle.

L'une des principales préoccupations du Times est que ChatGPT devienne, d'une certaine manière, un concurrent direct du journal en créant des textes qui répondent à des questions basées sur les reportages et les écrits originaux de l'équipe du journal.

Cette crainte est d'autant plus forte que les entreprises technologiques utilisent des outils d'IA générative dans les moteurs de recherche. Microsoft par exemple a investi des milliards dans OpenAI et anime désormais son moteur de recherche Bing avec ChatGPT.

Le problème de fond est que lorsqu'une personne effectue une recherche en ligne, elle reçoit une réponse d'un paragraphe d'un outil d'IA qui remanie les articles du Times. La nécessité de visiter le site web de l'éditeur s’en trouve grandement diminuée.

C’est pour toutes ces raisons que le NYT a procédé à la modification de ses conditions d’utilisation pour interdire l’usage de son contenu qui comprend les articles, les vidéos, les images, le design, les métadonnées ou les compilations, pour le développement de tout logiciel, notamment pour l’entraînement d’un système d’apprentissage automatique ou d’IA. Il interdit également l’utilisation d’outils automatisés, comme les robots d’indexation, qui visent à utiliser, accéder ou collecter ce contenu sans son consentement écrit. Le NYT précise que le non-respect de ces restrictions peut entraîner des amendes ou des sanctions civiles, pénales ou administratives.

Une action en justice du Times contre OpenAI mettrait en place ce qui pourrait être la bataille juridique la plus médiatisée à ce jour sur la protection des droits d'auteur à l'ère de l'IA générative. La manœuvre est susceptible d’être dévastatrice pour OpenAI, avec notamment la destruction de l'ensemble des données d’entraînement de ChatGPT et des amendes pouvant aller jusqu'à 150 000 dollars par contenu objet du litige.

Nom : 4.png
Affichages : 2238
Taille : 38,1 Ko

OpenAI a des auteurs de livres sur le dos au motif de l’exploitation du contenu de leurs ouvrages pour l’entraînement de ses modèles d’intelligence artificielle

Deux auteurs américains ont poursuivi OpenAI devant le tribunal fédéral de San Francisco. Motif : la société a abusé de leurs travaux pour entraîner son populaire système d'intelligence artificielle générative ChatGPT.

ChatGPT et d’autres systèmes d’IA générative créent du contenu en utilisant de grandes quantités de données collectées sur internet. La plainte des auteurs affirme que les livres sont un « ingrédient clé » car ils offrent les « meilleurs exemples d’écriture longue de haute qualité ». La plainte estime qu’OpenAI a incorporé dans ses données d’entraînement plus de 300 000 livres, dont certains provenant de « bibliothèques fantômes » illégales qui proposent des livres protégés par le droit d’auteur sans autorisation.

Awad est connue pour ses romans comme « 13 Ways of Looking at a Fat Girl » et « Bunny ». Tremblay est l’auteur de romans comme « The Cabin at the End of the World », qui a été adapté dans le film de Night Shyamalan « Knock at the Cabin » sorti en février. Tremblay et Awad affirment que ChatGPT peut générer des résumés « très précis » de leurs livres, ce qui indique qu’ils figurent dans sa base de données.

La plainte demande une somme indéterminée de dommages-intérêts au nom d’une classe nationale de titulaires de droits d’auteur dont les œuvres auraient été utilisées abusivement par OpenAI.

DALL-E 3, le dernier modèle de génération d'images d'OpenAI, tombe aussi sous le coup d’accusations de vol des œuvres visuelles des créateurs pour ses besoins d’entrainement

Depuis ses origines dans les années 1800, la bande dessinée est une affaire d'artisanat. Un artiste crayonnait ses pages après avoir reçu le scénario d'un scénariste et qui transmettait ensuite son précieux travail à un lettreur qui écrivait les textes dans les phylactères. Les pages étaient ensuite transmises à l'encreur et ainsi de suite jusqu'à la version définitive de l'œuvre qui sera mise en vente auprès des consommateurs. Bien que cette pratique ait quelque peu évolué au fil des ans, le processus est resté généralement le même. Mais avec l'essor des outils d'IA comme DALL-E, le marché des bandes dessinées pour être confronté à de profonds changements.

DALL-E est un modèle d'IA de génération d'œuvres d'art développé par OpenAI et distribué à partir de janvier 2021. (Le nom "DALL-E" est un mot-valise évoquant à la fois le robot de Pixar WALL-E et le peintre Salvador Dalí). Il génère des contenus visuels à partir de textes descriptifs appelés "invites" (ou "prompt" en anglais). DALL-E 3 est la troisième version majeure de cet outil d'IA et OpenAI a déclaré qu'elle rend le générateur d'images meilleur que jamais. Cette version apporte de nombreuses améliorations, notamment une meilleure compréhension du contexte, une intégration transparente avec le chatbot ChatGPT et de nouvelles mesures de sécurité.

Cette version a également permis à DALL-E de faire un bond en avant en matière de capacité à générer des images de type bande dessinée. En d'autres termes, DALL-E 3 permet de créer des bandes dessinées en toute simplicité et peu d'efforts. Selon les témoignages sur les réseaux sociaux, l'outil d'IA d'OpenAI permet de générer plusieurs panneaux, voir un scénario complet, d'une bande dessinée en moins de 5 minutes. Cette prouesse a suscité des sueurs froides chez les créateurs de bandes dessinées, qui craignent de voir la valeur de leur travail chuté sur le marché et de se faire progressivement remplacer par les outils d'IA de génération d'images.

En outre, cette mise à jour a également suscité des critiques acerbes de la part de la communauté et des créateurs de bandes dessinées. Ces derniers se sont indignés contre le fait que DALL-E 3 puisse copier et réutiliser leurs travaux, notamment leurs scénarios et leurs œuvres visuelles. Par exemple, un internaute a partagé en ligne une courte "bande dessinée" de quatre panneaux créée à l'aide de DALL-E 3. On peut distinguer clairement les personnages comme Batman, le Joker et Robin qui sont protégés par le droit d'auteur. Son message a suscité un tollé sur les médias sociaux, certains critiquant l'idée de célébrer une "bande dessinée créée par l'IA".

Le dessinateur Javier Rodriguez a fait remarquer qu'il ne s'agissait pas d'un simple copier-coller d'autres bandes dessinées dans une bande dessinée. Il a dénoncé cet usage de l'IA générative en le qualifiant de vol. Il a déclaré : « il y a quelque temps, on pouvait faire la même chose avec une photocopieuse et des ciseaux. Voler l'art d'autrui semble aujourd'hui plus facile et lucratif pour ceux qui sont à l'origine des modèles génératifs », a-t-il déclaré. De son côté, le dessinateur de bande dessinée Ramon Villalobos n'a pas été tendre avec l'internaute. Villalobos s'est moqué des résultats et a fait remarquer que le scénario de DALL-E 3 n'était pas cohérent.

You could do the same thing a while ago with a photocopier and some scissors. Stealing other people's art seems easier now and lucrative for those behind generative models. https://t.co/rJFvFjLjha
— Javier Rodríguez (@javiercaster) September 30, 2023

OpenAI vient-il de donner raison aux observateurs qui sont d’avis que les modèles d’intelligence artificielle doivent demeurer open source ?

Yann LeCun, chercheur français en intelligence artificielle et responsable de l'IA chez Meta, est d’avis que l'ouverture est le seul moyen d’éviter une réglementation prématurée de l'IA voulue par certains intervenants de la filière comme OpenAI et qui, selon lui, pourrait conduire à ce qu'un petit groupe d'entreprises contrôlent l'industrie de l'intelligence artificielle.

« Ce serait très dangereux que l’on garde ces modèles d’intelligence artificielle fermés. Si vous avez un petit groupe d’entreprises de la Côte ouest qui contrôlent des IA superintelligentes alors elles ont la main sur tout : opinion de monsieur Tout-le-monde, culture, etc. », souligne-t-il.

C’est la raison pour laquelle il n’a pas manqué d’accueillir avec faveur le lancement d’une coalition de plus de 50 entreprises d'intelligence artificielle et instituts de recherche qui prônent un modèle d'IA dit ouvert.

Nom : 6.png
Affichages : 2223
Taille : 84,0 Ko

Source : rapport Alex Heath

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi :

Stable Diffusion de Stability AI serait le modèle d'IA le plus important de tous les temps, contrairement à GPT-3 et DALL-E 2, il apporte des applications du monde réel ouvertes pour les utilisateur

Meta lance Meta AI et 28 IA ayant des « personnalités » incarnées par des célébrités telles que Snoop Dogg, Kendall Jenner et Paris Hilton afin d'accroître l'interaction des jeunes avec l'IA

OpenAI lance DALL-E 3 ChatGPT, la dernière version de son outil pour la génération d'images à partir de textes, afin d'aider les créateurs et les autres utilisateurs

**Jade Emy** · 21/12/2023, 05h41

11 auteurs de non-fiction, dont des lauréats du prix Pulitzer, se sont joints à une action en justice qui accuse OpenAI et Microsoft de violer leurs droits d'auteur pour entraîner le LLM GPT.

Un groupe de 11 auteurs d'ouvrages non-romanesques s'est joint à une action en justice devant le tribunal fédéral de Manhattan qui accuse OpenAI et Microsoft d'utiliser abusivement les livres que les auteurs ont écrits pour entraîner les modèles qui sous-tendent le populaire chatbot ChatGPT d'OpenAI et d'autres logiciels basés sur l'intelligence artificielle.

Les auteurs, dont Taylor Branch, Stacy Schiff et Kai Bird, lauréats du prix Pulitzer et coauteurs de la biographie de J. Robert Oppenheimer "American Prometheus", adaptée cette année dans le film à succès "Oppenheimer", ont déclaré au tribunal que les entreprises avaient violé leurs droits d'auteur en utilisant leurs œuvres pour entraîner les modèles de langage à grande échelle GPT d'OpenAI.

"Les défendeurs engrangent des milliards grâce à l'utilisation non autorisée de livres de non-fiction, et les auteurs de ces livres méritent une compensation et un traitement équitables pour cela", a déclaré l'avocat des écrivains, Rohit Nath.

Julian Sancton, écrivain et rédacteur en chef du Hollywood Reporter, a déposé la première proposition de recours collectif le mois dernier. Il s'agit de l'une des nombreuses actions intentées par des groupes de détenteurs de droits d'auteur, dont les auteurs John Grisham, George R.R. Martin et Jonathan Franzen, contre OpenAI et d'autres entreprises technologiques pour utilisation abusive présumée de leurs œuvres dans l'apprentissage de l'IA. Les entreprises ont nié ces allégations.

Le procès de Sancton est le premier procès d'auteur contre OpenAI à citer également Microsoft comme défendeur. Le géant de la technologie a investi des milliards de dollars dans la startup d'intelligence artificielle et a intégré les systèmes d'OpenAI dans ses produits.

La plainte modifiée indique qu'OpenAI a "récupéré" les œuvres des auteurs ainsi que des quantités d'autres documents protégés par le droit d'auteur sur l'internet, sans autorisation, afin d'enseigner à ses modèles GPT comment répondre à des messages textuels humains. L'action en justice indique également que Microsoft a été "profondément impliqué" dans la formation et le développement des modèles et qu'il est également responsable de la violation des droits d'auteur.

Les auteurs ont demandé au tribunal de leur accorder un montant non précisé de dommages et intérêts et d'ordonner aux entreprises de cesser de violer leurs droits d'auteur.

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi :

George R.R, romancier de "Game of Thrones", John Grisham et d'autres grands auteurs américains poursuivent OpenAI pour des questions de droits d'auteur

Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT. Selon eux, les livres sont un « ingrédient clé » du chabot IA

OpenAI tente désormais de cacher que ChatGPT a été formé sur des livres protégés par le droit d'auteur comme la série Harry Poter de J.K Rowling, selon une étude

**Jade Emy** · 27/12/2023, 18h28

Le New York Times poursuit OpenAI et Microsoft pour violation des droits d'auteur, affirmant que des "millions d'articles" ont été utilisés pour former des chatbots.

Le New York Times a intenté une action en justice contre OpenAI et Microsoft pour violation des droits d'auteur. Il affirme que les entreprises technologiques ont utilisé des "millions d'articles" pour développer leur intelligence artificielle. Le procès indique que les entreprises devraient être tenues responsables de "milliards de dollars de dommages".

Le New York Times a intenté une action en justice contre OpenAI et Microsoft pour violation des droits d'auteur, affirmant que les entreprises technologiques ont utilisé leurs articles pour former des chatbots qui menacent aujourd'hui les emplois des journalistes.

L'action en justice, déposée devant la Cour fédérale de district de Manhattan, affirme que les entreprises ont illégalement fourni des "millions d'articles" à Bing Chat de Microsoft et à ChatGPT d'OpenAI pour développer leurs produits. "Cette action vise à les tenir responsables des milliards de dollars de dommages statutaires et réels qu'elles doivent pour la copie et l'utilisation illégales des œuvres de grande valeur du Times", indique la plainte.

Le Times affirme que les programmes d'intelligence artificielle d'OpenAI et de Microsoft utilisent des modèles de langues étendues qui ont été développés en copiant leurs articles avec un accent particulier. "Les défendeurs cherchent à profiter de l'investissement massif du Times dans son journalisme en l'utilisant pour créer des produits substitutifs sans autorisation ni paiement", indique la plainte.

Nom : 1.png
Affichages : 4169
Taille : 21,8 Ko

Dans sa plainte, le New York Times affirme également que l'index de recherche Bing de Microsoft copie son contenu en ligne et le donne aux utilisateurs sans l'autorisation de la publication, ce qui le prive de revenus d'abonnement, de licence, de publicité et d'affiliation. Un exemple de détournement de références commerciales est donné par le New York Times : lorsqu'un utilisateur achète un produit recommandé par le New York Time's Wirecutter par le biais d'un lien sur l'une des plateformes générées par l'intelligence artificielle de Microsoft ou d'OpenAI, le New York Times ne perçoit pas de revenus d'affiliation.

Le New York Times a également déclaré que les "hallucinations" de l'intelligence artificielle - un phénomène qui se produit lorsque les chatbots génèrent de fausses informations et les attribuent à tort à une source - sont potentiellement préjudiciables à sa réputation. Le Times a déclaré que l'utilisation de leur travail a été extrêmement lucrative pour les entreprises, et qu'il a essayé de négocier avec les entreprises pour s'assurer qu'il recevait sa juste part tout en travaillant avec elles pour développer leur technologie, mais qu'il n'a pas été en mesure de parvenir à un accord.

"Le déploiement par Microsoft de LLM formés par Times dans l'ensemble de sa gamme de produits a contribué à accroître sa capitalisation boursière de mille milliards de dollars au cours de la seule année écoulée. Et le lancement du ChatGPT par OpenAI a fait grimper son évaluation à 90 milliards de dollars", indique le procès.

Dans son action en justice, le Times affirme qu'OpenAI et Microsoft ont déclaré que leur comportement était protégé en tant qu'"utilisation équitable" parce que leur utilisation du contenu était destinée à un nouvel objectif de "transformation". Selon le Times, "il n'y a rien de "transformatif" dans le fait d'utiliser le contenu du Times sans paiement pour créer des produits qui se substituent au Times et lui volent son public".

C'est la première fois qu'un grand média américain poursuit les créateurs d'une intelligence artificielle populaire et cela pourrait avoir des conséquences juridiques importantes.

La première action en justice intentée contre OpenAI au titre du droit d'auteur a été déposée en juillet par deux romanciers à succès qui ont affirmé que la société mère de ChatGPT avait enfreint la législation sur le droit d'auteur en entraînant son chatbot à "ingérer" leurs livres sans autorisation. Les auteurs Mona Awad et Paul Tremblay ont affirmé que ChatGPT avait été formé en partie en "ingérant" plusieurs de leurs romans, le tout sans leur consentement.

Peu après, la comédienne Sarah Silverman et les auteurs Richard Kadrey et Christopher Golden ont intenté une action en justice contre Meta Platforms et OpenAI, affirmant qu'ils avaient utilisé du matériel protégé par le droit d'auteur pour entraîner des chatbots.

Source : The New York Times

Et vous ?

Pensez-vous que cette plainte est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Le New York Times dit non à l'utilisation de son contenu comme données d'entraînement pour une IA sans son accord et menace de poursuites judiciaires

Le New York Times envisage d'initier une action en justice contre OpenAI pour l'obliger à effacer les données d'entraînement de ChatGPT. Le média dit non à l'usage de son contenu sans son accord

11 auteurs dont des lauréats du prix Pulitzer, se sont joints à une action en justice qui accuse OpenAI et Microsoft de violer leurs droits d'auteur pour entraîner ChatGPT

**Stéphane le calme** · 28/12/2023, 16h55

Le New York Times exige qu'OpenAI supprime toutes ses instances GPT dans une poursuite relative au droit d'auteur,
affirmant que des millions de ses articles ont été utilisés pour former ChatGPT

Le New York Times poursuit Microsoft et OpenAI, le créateur de ChatGPT, affirmant que des millions de ses articles de presse ont été utilisés à mauvais escient par les entreprises technologiques pour former leurs chatbots alimentés par l'IA. C'est la première fois qu'une des grandes sociétés de médias traditionnelles américaines s'attaque à la nouvelle technologie devant les tribunaux. Et cela déclenche une confrontation sur l’utilisation de plus en plus controversée de contenus protégés par le droit d’auteur pour alimenter les logiciels d’intelligence artificielle.

La plainte, qui exige un procès devant jury devant un tribunal de district de New York, affirme que les créateurs des chatbots ont refusé de reconnaître les protections du droit d'auteur accordées par la législation et la Constitution américaine. Elle affirme que les chatbots, y compris ceux intégrés aux produits Microsoft comme son moteur de recherche Bing, ont réutilisé le contenu du Times pour le concurrencer.

En août, nous avons appris que le New York Times envisageait de rejoindre la légion croissante de créateurs qui poursuivent les sociétés d'IA pour détournement de leur contenu : le quotidien a déclaré être contre l'utilisation de son contenu sans son accord en mettant à jour ses conditions d'utilisation. Le Times a tenté de négocier avec OpenAI des accords concernant la possibilité pour l'entreprise d'IA d'obtenir une licence pour son matériel, mais ces négociations ne se sont pas déroulées sans heurts. Quelques mois après que l'entreprise a envisagé des poursuites en justice, elle a décidé de passer à l'acte en déposant une plainte.

Le Times cible diverses entreprises sous l'égide d'OpenAI, ainsi que Microsoft, un partenaire OpenAI qui l'utilise à la fois pour alimenter son service Copilot et a contribué à fournir l'infrastructure pour la formation du grand modèle linguistique GPT. Mais la poursuite va bien au-delà de l'utilisation de matériel protégé par le droit d'auteur dans la formation, alléguant que les logiciels basés sur OpenAI contourneront volontiers le paywall du Times et attribueront au Times des informations erronées hallucinées.

Une concurrence déloyale

Comme indiqué dans le procès, le Times allègue qu’OpenAI et les grands modèles linguistiques (LLM) de Microsoft, qui alimentent ChatGPT et Copilot, « peuvent générer une sortie qui récite textuellement le contenu du Times, le résume fidèlement et imite son style expressif ». Cela « mine et endommage » la relation du Times avec ses lecteurs, affirme le média, tout en le privant « d’abonnements, de licences, de publicité et de revenus d’affiliation ».

La plainte affirme également que ces modèles d’IA « menacent un journalisme de haute qualité » en nuisant à la capacité des médias à protéger et à monétiser le contenu. « Grâce au Bing Chat de Microsoft (récemment rebaptisé « Copilot ») et au ChatGPT d’OpenAI, les accusés cherchent à profiter gratuitement de l’investissement massif du Times dans son journalisme en l’utilisant pour créer des produits de substitution sans autorisation ni paiement », indique la plainte.

Pendant ce temps, la publication de modèles d’IA formés sur le contenu du Times s’est avérée « extrêmement lucrative » à la fois pour Microsoft et pour OpenAI, indique la plainte.

Cette dernière ne comprend pas de demande monétaire exacte. Mais le quotidien affirme que les accusés devraient être tenus responsables de « milliards de dollars de dommages-intérêts légaux et réels » liés à « la copie et l’utilisation illégales des œuvres d’une valeur unique du Times ». Il appelle également les entreprises à détruire tous les modèles de chatbot et les données de formation qui utilisent du matériel protégé par le droit d'auteur du Times.

La construction d'un « un modèle économique basé sur la violation massive du droit d’auteur »

La plainte cite plusieurs exemples de ChatGPT récitant des extraits de journalistes du New York Times presque entièrement mot pour mot. Un exemple cité dans les documents judiciaires est une enquête en cinq parties sur l'industrie des taxis à New York, publiée en 2019. Le Times affirme que son enquête a porté sur 600 entretiens, plus de 100 demandes de dossiers et l'examen de milliers de pages de documents tels que des relevés bancaires.

« OpenAI n'a joué aucun rôle dans la création de ce contenu, mais avec un minimum d'incitations, il en récitera de grandes parties textuellement », indique la plainte.

Nom : un.png
Affichages : 13247
Taille : 476,5 Ko

Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge.

La poursuite allègue qu'il est facile d'amener des systèmes alimentés par GPT à proposer du contenu qui est normalement protégé par le paywall du Times. La poursuite montre un certain nombre d'exemples de GPT-4 reproduisant de grandes sections d'articles presque textuellement. La poursuite comprend des captures d'écran de ChatGPT recevant le titre d'un article du New York Times et demandant le premier paragraphe, ce qu'il livre. Obtenir le texte qui suit est apparemment aussi simple que de demander à plusieurs reprises le paragraphe suivant.

ChatGPT a apparemment comblé cette lacune entre la préparation de ce procès et le présent. En entrant certaines des invites affichées dans la poursuite, il est désormais indiqué « Je recommande de consulter le site Web du New York Times ou d'autres sources réputées », bien que nous ne puissions pas exclure que le contexte fourni avant cette invite puisse produire du matériel protégé par le droit d'auteur.

Mais toutes les lacunes n’ont pas été comblées. La combinaison affiche également les résultats de Bing Chat, rebaptisé depuis Copilot. Nous avons pu vérifier que demander le premier paragraphe d’un article spécifique du Times faisait en sorte que Copilot reproduisait le premier tiers de l’article.

La poursuite rejette les tentatives visant à justifier cela comme une forme d’utilisation équitable. « Publiquement, les accusés insistent sur le fait que leur conduite est protégée en tant « qu'usage loyal » parce que leur utilisation sans licence de contenu protégé par le droit d'auteur pour former des modèles GenAI sert un nouvel objectif « transformateur » », note la poursuite. « Mais il n'y a rien de "transformateur" dans le fait d'utiliser le contenu du Times sans paiement pour créer des produits qui remplacent le Times et lui volent du public ».

Nom : nyt.png
Affichages : 2514
Taille : 267,7 Ko

« Faire du bon journalisme est plus difficile que jamais »

La plainte souligne le passage d'OpenAI de sa création en 2015 en tant que « société d'intelligence artificielle à but non lucratif » à une entreprise à but lucratif de plusieurs milliards de dollars, « bâtie en grande partie sur l'exploitation sans licence d'œuvres protégées par le droit d'auteur appartenant au Times et d'autres ».

La plainte du Times affirme également que « faire du bon journalisme est plus difficile que jamais », avec l'effondrement des modèles commerciaux dans l'industrie au cours des 20 dernières années, obligeant de nombreux journaux à travers les États-Unis à fermer :

Si le Times et ses pairs ne peuvent pas contrôler l’utilisation de leur contenu, leur capacité à monétiser ce contenu sera compromise. Avec moins de revenus, les agences de presse auront moins de journalistes capables de consacrer du temps et des ressources à des reportages importants et approfondis, ce qui crée le risque que ces reportages ne soient pas racontés. Moins de journalisme sera produit et le coût pour la société sera énorme

Dommages à la réputation et autres

Les hallucinations communes à l'IA ont également été critiquées dans le cadre de la poursuite, car elles pourraient potentiellement nuire à la valeur de la réputation du Times et éventuellement nuire à la santé humaine en tant qu'effet secondaire. « Un modèle GPT a complètement inventé que "le New York Times a publié un article le 10 janvier 2020, intitulé 'Une étude révèle un lien possible entre le jus d'orange et le lymphome non hodgkinien' », affirme la plainte. « Le Times n'a jamais publié un tel article ».

De même, en posant des questions sur un article du Times sur les aliments sains pour le cœur, Copilot aurait déclaré qu'il contenait une liste d'exemples (ce qui n'était pas le cas). Lorsqu'il lui a été demandé la liste, 80% des aliments n'étaient même pas mentionnés dans l'article original. Dans un autre cas, des recommandations ont été attribuées à Wirecutter alors que les produits n'avaient même pas été examinés par son personnel.

Comme pour le matériel du Times, il est allégué qu'il est possible d'amener Copilot à proposer de gros morceaux d'articles sur Wirecutter (The Wirecutter appartient au New York Times). Mais la poursuite note que ces extraits d'articles sont dépourvus de liens d'affiliation, privant Wirecutter de sa principale source de revenus.

La réaction d'OpenAI

Dans sa plainte, le Times a déclaré avoir contacté Microsoft et OpenAI en avril pour faire part de ses préoccupations concernant l'utilisation de sa propriété intellectuelle et explorer « une résolution à l'amiable », impliquant éventuellement un accord commercial et des « garde-fous technologiques » autour des produits de l'IA générative. Mais il a ajouté que les négociations n'avaient pas abouti à une résolution.

Une porte-parole d'OpenAI, Lindsey Held, a déclaré dans un communiqué que la société avait « avancé de manière constructive » dans ses conversations avec le Times et qu'elle était « surprise et déçue » par le procès.

« Nous respectons les droits des créateurs et des propriétaires de contenu et nous nous engageons à travailler avec eux pour garantir qu'ils bénéficient de l'IA. la technologie et les nouveaux modèles de revenus », a déclaré Held. « Nos conversations en cours avec le New York Times ont été productives et progressent de manière constructive, nous sommes donc surpris et déçus de cette évolution. Nous espérons trouver une manière mutuellement avantageuse de travailler ensemble, comme nous le faisons avec de nombreux autres éditeurs. »

Nom : axel.png
Affichages : 2489
Taille : 24,9 Ko

Conclusion

Le New York Times est l’un des nombreux médias qui ont bloqué le robot d’exploration d’OpenAI ces derniers mois, empêchant la société d’IA de continuer à extraire le contenu de son site Web et à utiliser les données pour former des modèles d’IA. La BBC, CNN et Reuters ont également décidé de bloquer le robot d’exploration Web d’OpenAI. Cependant, d’autres publications adoptent l’IA – ou, du moins, les paiements qui l’accompagnent. Axel Springer, propriétaire de Politico et Business Insider, a conclu un accord avec OpenAI plus tôt ce mois-ci qui permet à ChatGPT d'extraire des informations directement des deux sources, tandis que l'Associated Press permet à OpenAI de former ses modèles sur ses actualités pour les deux prochaines années.

Sources : plainte du New York Times, communiqué d'Axel Springer

Et vous ?

Que pensez-vous de la position du New York Times par rapport à OpenAI ?

Croyez-vous que l’utilisation du contenu du New York Times par OpenAI relève de l’utilisation équitable ou de la contrefaçon ?

Quels sont les avantages et les inconvénients de l’intelligence artificielle générative pour le journalisme ?

Comment protéger le droit d’auteur à l’ère de l’intelligence artificielle ?

Quel rôle devraient jouer les régulateurs et les législateurs dans ce domaine ?

**Stéphane le calme** · 29/12/2023, 20h32

Analyse du procès New York Times contre OpenAI et Microsoft par Cecilia Ziniti, avocate de la Silicon Valley.
De quel côté penche la balance ? Qui a le plus de chance de remporter le procès ?

Le New York Times poursuit Microsoft et OpenAI, le créateur de ChatGPT, affirmant que des millions de ses articles de presse ont été utilisés à mauvais escient par les entreprises technologiques pour former leurs chatbots alimentés par l'IA. C'est la première fois qu'une des grandes sociétés de médias traditionnelles américaines s'attaque à la nouvelle technologie devant les tribunaux. Et cela déclenche une confrontation sur l’utilisation de plus en plus controversée de contenus protégés par le droit d’auteur pour alimenter les logiciels d’intelligence artificielle.

Cecilia Ziniti, avocate de la Silicon Valley, a analysé la plainte du quotidien.

En août, nous avons appris que le New York Times envisageait de rejoindre la légion croissante de créateurs qui poursuivent les sociétés d'IA pour détournement de leur contenu : le quotidien a déclaré être contre l'utilisation de son contenu sans son accord en mettant à jour ses conditions d'utilisation. Le Times a tenté de négocier avec OpenAI des accords concernant la possibilité pour l'entreprise d'IA d'obtenir une licence pour son matériel, mais ces négociations ne se sont pas déroulées sans heurts. Quelques mois après que l'entreprise a envisagé des poursuites en justice, elle a décidé de passer à l'acte en déposant une plainte.

Le Times cible diverses entreprises sous l'égide d'OpenAI, ainsi que Microsoft, un partenaire OpenAI qui l'utilise à la fois pour alimenter son service Copilot et a contribué à fournir l'infrastructure pour la formation du grand modèle linguistique GPT. Mais la poursuite va bien au-delà de l'utilisation de matériel protégé par le droit d'auteur dans la formation, alléguant que les logiciels basés sur OpenAI contourneront volontiers le paywall du Times et attribueront au Times des informations erronées hallucinées.

Une concurrence déloyale

Comme indiqué dans le procès, le Times allègue qu’OpenAI et les grands modèles linguistiques (LLM) de Microsoft, qui alimentent ChatGPT et Copilot, « peuvent générer une sortie qui récite textuellement le contenu du Times, le résume fidèlement et imite son style expressif ». Cela « mine et endommage » la relation du Times avec ses lecteurs, affirme le média, tout en le privant « d’abonnements, de licences, de publicité et de revenus d’affiliation ».

La plainte affirme également que ces modèles d’IA « menacent un journalisme de haute qualité » en nuisant à la capacité des médias à protéger et à monétiser le contenu. « Grâce au Bing Chat de Microsoft (récemment rebaptisé « Copilot ») et au ChatGPT d’OpenAI, les accusés cherchent à profiter gratuitement de l’investissement massif du Times dans son journalisme en l’utilisant pour créer des produits de substitution sans autorisation ni paiement », indique la plainte.

Pendant ce temps, la publication de modèles d’IA formés sur le contenu du Times s’est avérée « extrêmement lucrative » à la fois pour Microsoft et pour OpenAI, indique la plainte.

Cette dernière ne comprend pas de demande monétaire exacte. Mais le quotidien affirme que les accusés devraient être tenus responsables de « milliards de dollars de dommages-intérêts légaux et réels » liés à « la copie et l’utilisation illégales des œuvres d’une valeur unique du Times ». Il appelle également les entreprises à détruire tous les modèles de chatbot et les données de formation qui utilisent du matériel protégé par le droit d'auteur du Times.

La construction d'un « un modèle économique basé sur la violation massive du droit d’auteur »

La plainte cite plusieurs exemples de ChatGPT récitant des extraits de journalistes du New York Times presque entièrement mot pour mot. Un exemple cité dans les documents judiciaires est une enquête en cinq parties sur l'industrie des taxis à New York, publiée en 2019. Le Times affirme que son enquête a porté sur 600 entretiens, plus de 100 demandes de dossiers et l'examen de milliers de pages de documents tels que des relevés bancaires.

« OpenAI n'a joué aucun rôle dans la création de ce contenu, mais avec un minimum d'incitations, il en récitera de grandes parties textuellement », indique la plainte.

La poursuite allègue qu'il est facile d'amener des systèmes alimentés par GPT à proposer du contenu qui est normalement protégé par le paywall du Times. La poursuite montre un certain nombre d'exemples de GPT-4 reproduisant de grandes sections d'articles presque textuellement. La poursuite comprend des captures d'écran de ChatGPT recevant le titre d'un article du New York Times et demandant le premier paragraphe, ce qu'il livre. Obtenir le texte qui suit est apparemment aussi simple que de demander à plusieurs reprises le paragraphe suivant.

🧵 The historic NYT v. @OpenAI lawsuit filed this morning, as broken down by me, an IP and AI lawyer, general counsel, and longtime tech person and enthusiast.

Tl;dr - It's the best case yet alleging that generative AI is copyright infringement. Thread. 👇 pic.twitter.com/Zqbv3ekLWt
— Cecilia Ziniti (@CeciliaZin) December 27, 2023

L'analyse d'une avocate de la Silicon Valley

Premièrement, la plainte expose clairement l'allégation de violation du droit d'auteur, soulignant « l'accès et la similitude substantielle » entre les articles du NYT et les résultats de ChatGPT. Fait clé*: NYT est le plus grand ensemble de données propriétaires de Common Crawl utilisé pour entraîner GPT.

Nom : un.png
Affichages : 4361
Taille : 112,1 Ko

La preuve visuelle de la copie dans la plainte est flagrante. Texte copié en rouge, nouveaux mots GPT en noir*: un contraste conçu pour influencer un jury. Voir la pièce jointe ici. Mon avis ? OpenAI ne peut pas vraiment défendre cette pratique sans quelques modifications importantes des instructions et de nombreux litiges sur le fonctionnement de la technologie. Il sera plus intelligent de trouver un règlement à l'amiable que de se battre.

Nom : deux.png
Affichages : 2436
Taille : 476,5 Ko

Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge.

Le droit d'auteur protège la créativité, pas l'effort

Le NYT est un excellent plaignant. Il ne s'agit pas seulement d'articles ; c'est une question d'originalité et de processus créatif. Leur journalisme d’investigation, à l’instar d’un exposé approfondi sur les prêts de taxi cité dans la plainte, va au-delà du simple travail : c’est la créativité qui est à la base.

Mais voici une particularité : le droit d'auteur protège la créativité, pas l'effort. Même si les 600 interviews de l'article sur les taxis sont impressionnantes, c'est l'innovation en matière de reportage qui compte sur le plan juridique. Soit dit en passant, cela contraste très fortement avec le procès contre GitHub Copilot, qui ne citait que quelques lignes de code open source.

Une possibilité d'obtenir des dommages-intérêts

L'échec des négociations laisse présager des dommages pour le New York Times. OpenAI est déjà sous licence auprès d'autres médias comme Politico.

Le refus d'OAI de conclure un accord avec le New York Times (qui affirme l'avoir contacté en avril) pourrait s'avérer coûteux, d'autant plus que les bénéfices d'OpenAI augmentent et que de plus en plus d'exemples se produisent. Mon hypothèse épicée ? OpenAI pensait pouvoir s'en sortir avec un montant à 7 ou 8 chiffres. Le NYT recherche davantage et une redevance permanente.

La plainte décrit OpenAI comme étant axé sur le profit et fermé. Cela contraste avec le bien public du journalisme. Ce discours pourrait s’avérer puissant devant les tribunaux, en mettant en balance la valeur sociétale du droit d’auteur et l’innovation technologique. Notamment, cet équilibre entre le bien et le mal a été remis en question dans toutes les affaires majeures de droit d'auteur - depuis l'affaire Betamax jusqu'à la conclusion de Feist sur les annuaires téléphoniques non protégés par le droit d'auteur. La plainte mentionne même le drame du conseil d'administration et de Sam Altman.

Nom : trois.png
Affichages : 2413
Taille : 97,5 Ko

Les allégations de désinformation ajoutent une touche astucieuse. La plainte évoque quelque chose dont les gens ont peur - les hallucinations - et en fait un argument, citant des exemples où des éléments d'articles du New York Times ont été inventés. Exemple le plus mémorable ? Alléguant que Bing dit que le New York Times a publié un article dans lequel il déclare que le jus d'orange provoque un lymphome.

Autre point intéressant : le New York Times a de très bons avocats. Susman Godfrey jouit d'une excellente réputation et d'une solide expérience en matière de technologie. Il ne s’agit pas d’une ponction rapide comme les poursuites intentées une semaine après ChatGPT*; c'est un défi juridique stratégique.

Cette affaire pourrait constituer un tournant décisif pour l’IA et le droit d’auteur. Beaucoup de gens disent qu’OpenAI aurait dû payer. Nous verrons!

Ce qui est en jeu? L’avenir de l’innovation en IA et la protection du contenu créatif. Restez à l'écoute.

Conclusion

OpenAI a réagi au procès en déclarant qu’il respecte les droits des créateurs et des propriétaires de contenu et qu’il est disposé à travailler avec eux pour s’assurer qu’ils bénéficient de la technologie de l’IA et de nouveaux modèles de revenus. Il a également affirmé qu’il avait eu des conversations productives et constructives avec le NYT et qu’il était surpris et déçus par ce développement. Il a exprimé son espoir de trouver un moyen mutuellement bénéfique de collaborer, comme il le fait avec de nombreux autres éditeurs.

Le procès du NYT est le dernier d’une série de cas similaires, dont un intenté par plus d’une douzaine d’auteurs en septembre contre OpenAI pour l’utilisation de leurs écrits. Les modèles d’apprentissage du langage ont fait l’objet d’un examen accru depuis qu’ils ont explosé en popularité l’année dernière, les médias d’information étant particulièrement préoccupés par le fait que ces outils propagent des informations erronées qui leur sont attribuées et utilisent leur contenu sans incitation à cliquer sur la source originale.

L’issue du procès du NYT contre Microsoft et OpenAI pourrait avoir des implications importantes pour l’industrie de l’IA générative, qui repose largement sur l’utilisation de données provenant de sources publiques pour entraîner ses modèles. Le procès soulève des questions juridiques et éthiques sur la propriété, l’utilisation et la réglementation des données dans le domaine de l’IA, ainsi que sur les droits et les responsabilités des créateurs, des utilisateurs et des fournisseurs de contenu. Il met également en évidence les tensions entre les intérêts commerciaux et les valeurs sociales des acteurs impliqués dans le développement et le déploiement de l’IA.

Source : Cecilia Ziniti

Et vous ?

Quelle est votre opinion sur le procès du NYT contre Microsoft et OpenAI ? Pensez-vous qu’il soit justifié ou non ?

Quels sont les avantages et les inconvénients de l’utilisation de l’IA générative pour créer du contenu ? Comment cela affecte-t-il les créateurs et les consommateurs de contenu ?

Comment les droits d’auteur et la propriété intellectuelle devraient-ils être appliqués et respectés dans le domaine de l’IA ? Quels sont les défis et les opportunités pour les régulateurs et les législateurs ?

Quelles sont les implications du développement et du déploiement de l’IA générative ? Comment cela influence-t-il la confiance, la crédibilité et la responsabilité des sources d’information ?

Quelles sont les meilleures pratiques et les normes pour utiliser l’IA générative de manière responsable et bénéfique ? Comment les utilisateurs peuvent-ils s’informer et se protéger contre les risques potentiels de l’IA générative ?

**Stéphane le calme** · 30/12/2023, 22h50

Les choses sont sur le point d’empirer pour l’IA générative : DALL-E d'OpenAI et Midjourney ont généré des images et marques protégées,
sans y être invités par des utilisateurs

Dans sa bataille contre OpenAI et Microsoft, le New York Times a cité plusieurs exemples où ChatGPT récite des extraits d'articles de ses journalistes presque entièrement mot pour mot. Des internautes ont remarqué que le plagiat allait bien au-delà des textes et touchait également les images. Ils ont utilisé des images généré par DALL-E, l'outil d'OpenAI spécialisé pour générer des images à l'aide de simples invites textuelles.

L'arrivée de modèles de synthèse d'images largement disponibles, tels que Midjourney et Stable Diffusion, a provoqué une intense bataille en ligne entre les artistes qui considèrent les œuvres assistées par l'IA comme une forme de vol et ceux qui accueillent avec enthousiasme ces nouveaux outils de création. Les communautés d'artistes établies sont à la croisée des chemins car elles craignent que les œuvres non IA ne soient noyées dans une offre illimitée d'œuvres générées par l'IA, alors que ces outils sont devenus très populaires parmi certains de leurs membres.

En interdisant l'art créé par synthèse d'image sur son portail d'art, Newgrounds a écrit : « Nous voulons garder l'accent sur l'art fait par des personnes et ne pas inonder le portail d'art avec de l'art généré par ordinateur ». Fur Affinity a cité des préoccupations concernant l'éthique de la façon dont les modèles de synthèse d'images apprennent à partir d'œuvres d'art existantes, écrivant : « Notre objectif est de soutenir les artistes et leur contenu. Nous ne pensons pas qu'il soit dans l'intérêt de notre communauté d'autoriser du contenu généré par l'IA sur le site ». Ce ne sont que les derniers mouvements dans un débat qui évolue rapidement sur la façon dont les communautés artistiques (et les professionnels de l'art) peuvent s'adapter à un logiciel qui peut potentiellement produire des œuvres illimitées d'art magnifique à un rythme qu'aucun humain travaillant sans les outils ne pourrait égaler.

Parmi ces outils, nous pouvons citer DALL-E 3, le système d'IA d'OpenAI qui peut générer des images à partir de quelques mots ou éditer et affiner des images existantes par le même moyen. Par exemple, l'invite « un renard dans un arbre » ferait apparaître une photo d'un renard assis dans un arbre, ou l'invite « astronaute avec un bagel à la main » montrerait… eh bien, vous voyez où cela mène. Le logiciel ne se contente pas de créer une image dans un style unique, vous pouvez ajouter différentes techniques artistiques à votre demande, en entrant des styles de dessin, de peinture à l'huile, un modèle en pâte à modeler, tricoté en laine, dessiné sur un mur de grotte, ou même comme une affiche de film des années 1960.

Quand l'IA reproduit des œuvres protégées par le droit d'auteur

Seulement voila :

Les systèmes d'IA générative comme DALL-E et ChatGPT ont été formés sur du matériel protégé par le droit d'auteur*;
OpenAI, malgré son nom, n'a pas été transparent sur les sujets sur lesquels elle a été formée.
Les systèmes d’IA générative sont tout à fait capables de produire du matériel qui porte atteinte au droit d’auteur. Ce cas est d'ailleurs au centre de la bataille judiciaire opposant le New York Times à OpenAI et Microsoft. La plainte cite plusieurs exemples de ChatGPT récitant des extraits de journalistes du New York Times presque entièrement mot pour mot. « OpenAI n'a joué aucun rôle dans la création de ce contenu, mais avec un minimum d'incitations, il en récitera de grandes parties textuellement », indique la plainte.

Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge.
Ils n'informent pas les utilisateurs lorsqu'ils le font.
Ils ne fournissent aucune information sur la provenance des images qu’ils produisent.
Les utilisateurs peuvent ne pas savoir lorsqu'ils produisent une image donnée s'ils portent atteinte à leurs droits.

DALL-E d'OpenAI

Certains ont commencé à noter que DALL-E reproduisait des œuvres protégées. Par exemple, cet internaute qui déclare : « Il devrait être clair désormais que même des invites très vagues conduisent systématiquement à des violations de droits d'auteur et/ou de marques déposées. Comment la responsabilité peut-elle être imputée à l’utilisateur alors que le modèle genAI s’efforce de commettre des infractions sans y être invité*? »

It should be clear by now that even very vague prompts consistently lead to copyright and/or trademark violations.

How can liability be pushed to the user when the genAI model tries so hard to infringe without being directed to do so? pic.twitter.com/RmAR2LMVxr
— Blanketman (@Blanketman_01) December 29, 2023

Ou encore Justine Moore de A16Z qui déclare : « Nous gagnons définitivement la bataille du droit d’auteur, les gars. Ces frères italiens ne ressemblent en rien à Mario et Luigi ».

We’re definitely winning the copyright battle, guys.

These Italian brothers look nothing like Mario and Luigi. pic.twitter.com/qemYuGsXGm
— Justine Moore (@venturetwins) December 29, 2023

Midjourney

Mais DALL-E n'est pas le seul système à proposer ce genre de rendu. Reid Southern, concepteur et illustrateur de films, a déclaré avoir trouvé une « preuve irréfutable de la violation flagrante du droit d'auteur de Midjourney ».

I consider this a smoking gun for Midjourney's flagrant copyright infringement. A 6-word prompt can replicate a Dune still nearly 1:1 every time. These aren't variations, it's the same prompt run repeatedly.

Try it yourself. Merry Christmas Midjourney. pic.twitter.com/2wpeTwxS0Q
— Reid Southen (@Rahll) December 24, 2023

Au cas où vous seriez curieux, j'ai beaucoup plus de violations du droit d'auteur de Midjourney à partager. Cela inclut davantage d'exemples comme cet exemple de Dune consistant à répéter sans cesse la même image. Ce n'est pas un cas isolé, je crois que c'est assez courant en fait, et je compte le démontrer.

Pour un expert en IA, rien de tout cela ne peut être facilement résolu...

Gary Marcus a plusieurs casquettes et se présente comme étant un expert de premier plan en matière d'IA, s'est exprimé devant le sous-comité de surveillance de l'IA du Sénat américain, Fondateur/PDG de Geometric Intelligence (qui a été acquis par Uber), TED speaker.

Au vue de la situation, il a déclaré :

Je suppose que rien de tout cela ne peut être facilement résolu.

Des systèmes comme DALL-E et ChatGPT sont essentiellement des boîtes noires. Les systèmes GenAI ne donnent pas d’attribution aux documents sources car, du moins dans leur forme actuelle, ils ne le peuvent pas. (Certaines entreprises recherchent comment faire ce genre de chose, mais je ne connais jusqu'à présent aucune solution convaincante.)

À moins que quelqu’un puisse inventer une nouvelle architecture capable de suivre de manière fiable la provenance du texte génératif et/ou des images génératives, la violation – souvent pas à la demande de l’utilisateur – continuera.

Un bon système doit fournir à l'utilisateur un manifeste de sources*; les systèmes actuels ne le font pas.

Selon toute vraisemblance, le procès du New York Times n’est que le premier d’une longue série. Aujourd'hui, lors d'un sondage à choix multiples X, j'ai demandé aux gens s'ils pensaient que l'affaire serait réglée (la plupart l'ont fait) et quelle pourrait être la valeur probable d'un tel règlement. La plupart des réponses étaient de 100 millions de dollars ou plus, 20 % s'attendaient à un règlement d'un milliard de dollars. Lorsque vous multipliez de tels chiffres par le nombre de studios de cinéma, de sociétés de jeux vidéo, d'autres journaux, etc., très vite, vous vous retrouvez avec des sommes astronomiques.

Et OpenAI est confronté à d’autres risques.

Il a également déclaré que Microsoft est aussi responsable.

If you were NYT in lawsuit against OpenAI, and OpenAI offered a settlement, what is the minimum you would accept?
— Gary Marcus (@GaryMarcus) December 29, 2023

... mais un ingénieur estime que l'exemple du NYT ne relève même pas d'une violation du droit d'auteur

Aucun de ces éléments ne constitue une contrefaçon. Un modèle produisant même la chose exacte, jeton pour jeton ou pixel pour pixel, ne constitue pas une contrefaçon. Les pages de « texte rouge » de la poursuite ne sont pas non plus convaincantes. Tout d'abord, il est possible que le texte textuel soit en fait RAG dans l'application de chat n'ayant rien à voir avec le modèle lui-même. Ce serait drôle... Le New York Times n'aimera pas cette surprise. Même si ce n'est pas le cas et que le modèle récite le texte/les pixels textuellement, encore une fois... et alors ? le New York Times n'a pas de bons arguments ici.

C'est un malentendu à la fois sur l'utilisation équitable et sur la technologie. Les documents « formés et protégés par le droit d'auteur » sont sans objet. Il n'est pas non plus illégal de récupérer du contenu et de le revendre, il suffit de demander à HiQ, que le 9ème Circuit protégeait contre Linkedin - HiQ récupérait et revendait littéralement des données non sécurisées (principalement) du site Web commercial de LinkedIn.

Dans l'affaire Authors Guild c. Google, même la numérisation mot à mot de livres par Google pour créer une base de données consultable a été considérée comme un usage équitable, considéré comme transformateur. L'utilisation par OpenAI du contenu du NYT est similaire, le transformant pour l'apprentissage de l'IA où il est divisé en jetons, puis converti en intégrations - encore une fois, c'est le malentendu des gens*; ils pensent que les « mots » servent à former le modèle. Ce n’est pas le cas. Les nombres entrent. Pour obtenir des nombres, il faut transformer les mots en jetons puis en nombres.

Fox News Network, LLC contre TVEyes, Inc., un service enregistrant tout le contenu diffusé par des organisations à des fins d'indexation et de découpage, a été considéré comme un usage équitable en raison de son objectif transformateur.

.. Sony Corp. contre Universal City Studios a soutenu l'innovation technologique dans l'affaire Betamax, soutenant de nouvelles utilisations technologiques telles que la réalisation de copies complètes d'émissions de télévision.

Le NYT a également une énorme colline à gravir pour prouver que ses prétendues pertes sont dues à l’IA et non à son propre modèle économique défaillant (un défi, c’est le moins qu’on puisse dire).

none of these are infringement. a model producing even the exact thing, token-for-token or pixel-for-pixel, isn't infringement. the "red text" pages of the suit aren't compelling, either. first off, it's possible the verbatim text is actually RAG in the chat application having…
— Zack (@birb_check) December 29, 2023

Sources : Gary Marcus, Justine Moore

Et vous ?

Êtes-vous surpris de voir les IA génératives s'appuyer sur des œuvres protégées même lorsqu'elles ne sont pas mentionnées en entrée ?

Cela constitue-t-il, selon vous, une violation du droit d'auteur ? Dans quelle mesure ?

Que pensez-vous du raisonnement de Gary Marcus qui pense que le problème va toujours exister tant qu'il n'y a pas une modification de l'architecture pour permettre d'identifier les sources ?

Que pensez-vous de l'argumentation de Zack qui indique que le cas soulevé par le New-York Times ne relève pas du droit d'auteur ?

**totozor** · 02/01/2024, 07h54

Envoyé par Stéphane le calme

Êtes-vous surpris de voir les IA génératives s'appuyer sur des œuvres protégées même lorsqu'elles ne sont pas mentionnées en entrée ?

Non, si la demande réclame une chose qui n'est flaggée que sur une œuvre, elle risque fort de ressortir telle quelle ou presque.

Cela constitue-t-il, selon vous, une violation du droit d'auteur ? Dans quelle mesure ?

Que pensez-vous du raisonnement de Gary Marcus qui pense que le problème va toujours exister tant qu'il n'y a pas une modification de l'architecture pour permettre d'identifier les sources ?

Que pensez-vous de l'argumentation de Zack qui indique que le cas soulevé par le New-York Times ne relève pas du droit d'auteur ?

Je suis loin d'être un spécialiste du droit d'auteur donc il est compliqué de se prononcer mais j'ai retenu une chose de mes cours de droits : (en France) concernant les marques et logos, la "copie" n'est pas évaluée sur les différences mais sur la ressemblance.
Zack parle du processus de copie, ce qui me semble hors de propos, si tu retranscrits un texte numérisé en le même texte numérisé ça me semble être simplement du viol de propriété intellectuelle.
Je verrais plus une question sur l'exploitation commerciale, j'ai le droit d'imprimer mon propre Tshirt avec la couverture de Nevermind de Nirvana mais je n'ai pas le droit de le vendre.

**Mathis Lucas** · 05/01/2024, 10h08

OpenAI proposerait aux éditeurs des offres aussi "dérisoires" qu'un million de dollars par an afin d'utiliser leurs articles pour entraîner ses modèles d'IA
selon un rapport

OpenAI chercherait à conclure des accords de licence avec les éditeurs de presse afin d'utiliser leurs articles pour entraîner ses modèles d'IA et échapper aux nombreuses actions en justice pour violation du droit d'auteur dont il fait l'objet. Mais les offres proposées par OpenAI sont jugées dérisoires. La société proposerait aux médias aussi peu qu'un million de dollars par an pour un accès légal à leurs contenus. Des sources indiquent que ces offres peuvent grimper jusqu'à cinq millions de dollars par an, mais les éditeurs sont réticents, car ces licences pourraient être trop avantageuses pour OpenAI. Les revenus annuels d'OpenAI se sont élevés à plus de 1,6 milliard de dollars en 2023.

Les entreprises développant des produits d'IA générative ont utilisé des articles de presse et d'autres données publiques pour entraîner leurs modèles d'IA, mais elles l'ont apparemment fait sans trop se préoccuper des droits de propriété intellectuelle. Résultat, elles sont aujourd'hui poursuivies par de nombreux éditeurs, auteurs et artistes pour utilisation illégale du matériel protégés par le droit d'auteur. Le dernier exemple en date est une action en justice intentée contre OpenAI par le quotidien américain The New York Times. La plainte exige qu'OpenAI supprime tous les articles du média des données d'entraînement de ses grands modèles de langage.

C'est la première fois qu'une grande société de médias traditionnelle américaine s'attaque à la nouvelle technologie devant les tribunaux et les conséquences pourraient être désastreuses pour OpenAI s'il perdait le procès. Ainsi, OpenAI cherche désormais des moyens légaux pour utiliser les contenus de la presse sans prendre le risque d'être poursuivi en justice. Cette semaine, l'on a appris qu'OpenAI est en pourparlers avec des dizaines d'éditeurs de presse en vue de conclure des accords de licence afin de pouvoir utiliser leurs articles pour entraîner ses modèles d'IA. Un représentant d'OpenAI a laissé entendre que les négociations évoluent normalement.

« Nous sommes au milieu de nombreuses négociations et discussions avec de nombreux éditeurs. Ils sont actifs. Ils sont très positifs. Elles progressent bien. Vous avez vu des accords annoncés, et il y en aura d'autres à l'avenir », a déclaré Tom Rubin, responsable de la propriété intellectuelle et du contenu chez OpenAI. Toutefois, les rapports sur le sujet font état d'une hésitation de la part des éditeurs. Selon un rapport de The Information, OpenAI serait prêt à offrir entre 1 et 5 millions de dollars par an à un éditeur afin d'obtenir une licence sur ses articles de presse protégés par le droit d'auteur. OpenAI pourra alors utiliser ces contenus comme il l'entend.

Cependant, des personnes impliquées dans les pourparlers avec OpenAI ont rapporté que les médias, y compris les petits éditeurs, considèrent que ces montants sont "minuscules". OpenAI a déjà conclu un accord de licence pluriannuel avec Axel Springer SE, la société mère de Politico, pour plusieurs dizaines de millions de dollars. En juillet, OpenAI a trouvé un accord avec Associated Press pour un montant non divulgué. Ces accords sont essentiels pour l'avenir d'OpenAI. Il doit trouver un équilibre entre la nécessité de disposer de données actualisées et précises pour élaborer ses modèles et l'attention croissante portée à la provenance de ces données.

Les montants semblent à peu près similaires à certains accords de licence antérieurs non liés à l'IA. Lorsque Meta a lancé l'onglet Facebook News - qui a depuis été supprimé en Europe - il aurait offert jusqu'à 3 millions de dollars par an pour la licence d'articles d'actualité, de titres et d'aperçus. Google a annoncé en 2020 qu'il investirait un milliard de dollars au total pour établir des partenariats avec des organismes de presse, par exemple. Sous la pression d'une nouvelle loi, Google a également accepté récemment de verser aux éditeurs canadiens un total de 100 millions de dollars par an en échange de la création de liens vers leurs articles.

Sur la toile, les réactions sont mitigées. Certains critiques trouvent que les offres proposées par OpenAI sont raisonnables, mais d'autres pas. Par ailleurs, le rapport de The Information révèle que deux des principaux rivaux d'OpenAI, notamment Google et Apple, sont également à la recherche d'accords de contenu avec des éditeurs de presse pour les mêmes raisons. Mais Apple serait en train d'offrir aux entreprises de médias plus d'argent en échange de droits d'utilisation plus étendus. La société veut pouvoir utiliser les articles dans ses futurs produits d'IA de toutes les manières qu'elle jugera nécessaires. L'on ignore à quel stade en sont les négociations.

Google aurait pris du retard sur les deux autres entreprises dans les négociations relatives aux licences sur l'utilisation des articles de presse pour l'entraînement des modèles d'IA, mais le géant de la recherche entretient déjà des relations avec certains médias grâce aux accords de licence qu'il a conclus pour le service Google News. Selon certains analystes, il s'agit probablement d'un avantage concurrentiel pour Google et cela pourrait faciliter la tâche à l'entreprise. Toutefois, les négociations se déroulent dans un contexte où les médias et autres créateurs s'inquiètent de plus en plus de l'utilisation du contenu pour former les grands modèles de langage.

Pour autant que nous sachions ce que contiennent leurs données d'apprentissage, les modèles de langage actuels ont principalement été formés à partir d'informations provenant d'Internet. Si certains modèles d'IA ne révèlent pas comment ils ont obtenu leurs données d'apprentissage, des informations sont souvent disponibles sur les ensembles de données ou les robots d'indexation utilisés. Le prix des ensembles de données d'entraînement varie en fonction du fournisseur, de la taille et du contenu de l'ensemble de données. D'autres jeux de données, comme LAION, sont libres et entièrement gratuits et sont utilisés par des modèles tels que Stable Diffusion.

Les développeurs d'IA mettent également souvent en place des robots d'indexation qui collectent des données sur Internet afin d'entraîner de leurs modèles d'IA. (Les fournisseurs d'IA doivent toujours embaucher des personnes pour vérifier, étiqueter et parfois nettoyer les données d'entraînement, ce qui augmente considérablement les coûts d'exploitation). Mais cette pratique est aujourd'hui confrontée à des défis majeurs. D'une part, plusieurs entreprises, dont le New York Times, empêchent les robots d'accéder à leurs données. D'autre part, plusieurs organisations affirment que la formation sur leurs données constitue une violation du droit d'auteur.

Selon les analystes, le procès du New York Times représente un défi existentiel pour les activités d'OpenAI. Si le média gagne le procès, OpenAI pourrait non seulement devoir des milliards de dollars en guise de dommages-intérêts, mais aussi être forcé de détruire toutes ses données de formation comprenant des travaux de l'éditeur. Cette tâche pourrait être coûteuse et compliquée. Dans l'immédiat, cependant, le procès complique les efforts d'OpenAI pour conclure des accords avec l'industrie des médias. Un porte-parole d'OpenAI a déclaré récemment que l'entreprise était surprise et déçue que le New York Times ait intenté une action en justice.

OpenAI a ajouté qu'il espère néanmoins trouver un moyen mutuellement bénéfique de travailler avec le New York Times. « Nous respectons les droits des créateurs et des propriétaires de contenus et nous nous engageons à travailler avec eux pour qu'ils bénéficient de la technologie de l'IA et de nouveaux modèles de revenus », note un communiqué de l'entreprise. Selon Rubin, la situation actuelle est très différente de celles auxquelles les éditeurs ont été confrontés dans le passé avec les moteurs de recherche et les médias sociaux. Rubin a déclaré que le contenu des articles de presse est utilisé pour entraîner un modèle, pas pour reproduire le contenu.

Mais le Times n'est pas d'accord avec la position d'OpenAI, estimant que ChatGPT copie carrément le travail de ses journalistes sans payer pour cela. Dans son procès, l'éditeur a montré des exemples dans lesquels ChatGPT régurgitait des paragraphes entiers de texte presque mot à mot du New York Times. L'éditeur affirme que c'est la preuve qu'OpenAI a utilisé les données du New York Times. « Si Microsoft et OpenAI veulent utiliser notre travail à des fins commerciales, la loi exige qu'ils obtiennent d'abord notre autorisation. Ils ne l'ont pas fait », a déclaré le New York Times dans un communiqué. Certains ont toutefois critiqué la position du New York Times.

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous du montant proposé par OpenAI aux éditeurs de presse pour accéder à leurs contenus ?

Pensez-vous que ce montant est dérisoire ? Ces accords profiteront-ils davantage à OpenAI qu'aux éditeurs ?

Ces accords de licence risquent-ils d'augmenter les coûts de développement des grands modèles de langage ?

Voir aussi

Le New York Times exige qu'OpenAI supprime toutes ses instances GPT dans une poursuite relative au droit d'auteur, affirmant que des millions de ses articles ont été utilisés pour former ChatGPT

George R.R, romancier de "Game of Thrones", John Grisham et d'autres grands auteurs américains poursuivent OpenAI pour des questions de droits d'auteur

OpenAI et Meta accusés d'avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement, comme données d'entraînements de leurs IA. Les plaintes de ce type se multiplient