Eric Schmidt estime qu'il n'y a pas de mal à ce que les entreprises spécialisées dans l'IA volent des contenus

**Patrick Ruiz** · 01/07/2024, 16h17

Le patron de l'IA chez Microsoft pense qu'il est tout à fait acceptable de voler du contenu s'il se trouve sur le web ouvert
Et justifie l’entraînement des modèles d’IA à partir de données sous copyright

Mustafa Suleyman fait montre d’une curieuse compréhension du droit d'auteur sur le web et vient d’en faire la démonstration. Ce dernier est d’avis que dès que l'on publie quelque chose sur le web, cela devient un "freeware" que tout le monde peut copier et utiliser librement. Ce positionnement est néanmoins en contradiction avec la suppression par OpenAI de jeux de données utilisés pour entraîner GPT-3. La décision laissait ainsi entendre que l’entraînement des modèles d’IA tel qu’effectué en l’état se fait en violation des lois sur le copyright contrairement à ce que semble laisser entendre le patron de l’intelligence artificielle chez Microsoft.

[

Microsoft AI CEO Mustafa Suleyman: the social contract for content that is on the open web is that it's "freeware" for training AI models pic.twitter.com/FN1xrqnJC0
— Tsarathustra (@tsarnick) June 26, 2024

Des documents récemment dévoilés dans le cadre d’un recours collectif contre OpenAI révèlent que la startup a supprimé deux énormes ensembles de données, appelés "books1" et "books2", qui avaient été utilisés pour entraîner son modèle d'intelligence artificielle GPT-3. Les avocats de la firme Authors Guild ont déclaré dans les documents déposés au tribunal que les ensembles de données contenaient probablement plus de 100 000 livres publiés et qu'ils étaient au cœur des allégations selon lesquelles OpenAI avait utilisé des documents protégés par le droit d'auteur pour entraîner des modèles d'intelligence artificielle.

Pendant des mois, la firme Authors Guild a cherché à obtenir des informations sur ces données auprès d'OpenAI. L'entreprise a d'abord résisté, invoquant des problèmes de confidentialité, avant de révéler qu'elle avait supprimé toutes les copies des données, selon les documents juridiques examinés par certains médias

Dans un livre blanc publié en 2020, OpenAI a décrit les ensembles de données books1 et books2 comme des "corpus de livres basés sur Internet" et a indiqué qu'ils représentaient 16 % des données d'entraînement utilisées pour créer le GPT-3. Le livre blanc indique également que "books1" et "books2" contiennent ensemble 67 milliards de tokens de données, soit à peu près l'équivalent de 50 milliards de mots. À titre de comparaison, la Bible du roi Jacques contient 783 137 mots.

La lettre non scellée des avocats d'OpenAI, qui porte la mention « hautement confidentiel - réservé aux avocats », indique que l'utilisation de books1 et books2 pour l'entraînement des modèles a cessé à la fin de 2021 et que les ensembles de données ont été supprimés à la mi-2022 en raison de leur non-utilisation. La lettre poursuit en indiquant qu'aucune des autres données utilisées pour entraîner le GPT-3 n'a été supprimée et offre aux avocats de la Guilde des auteurs l'accès à ces autres ensembles de données.

Les documents non scellés révèlent également que les deux chercheurs qui ont créé books1 et books2 ne sont plus employés par OpenAI. OpenAI a d'abord refusé de révéler l'identité des deux employés.

La startup a depuis identifié les employés auprès des avocats de la firme Authors Guild, mais n'a pas révélé publiquement leurs noms. OpenAI a demandé au tribunal de garder sous scellés les noms des deux employés, ainsi que les informations sur les ensembles de données. Authors Guild s'y est opposée, arguant du droit du public à être informé. Le litige est en cours.

"Les modèles qui alimentent ChatGPT et notre API aujourd'hui n'ont pas été développés à partir de ces ensembles de données", a déclaré OpenAI dans un communiqué mardi. "Ces jeux de données, créés par d'anciens employés qui ne font plus partie d'OpenAI, ont été utilisés pour la dernière fois en 2021 et supprimés pour cause de non-utilisation en 2022."

Nom : 1.png
Affichages : 4463
Taille : 19,0 Ko

C’est la raison pour laquelle les entreprises de la filière intelligence artificielle s’ouvrent de plus en plus à la conclusion d’accords de licence de contenu avec des éditeurs de presse

Le Financial Times (FT) a annoncé un partenariat stratégique et un accord de licence avec OpenAI. Cet accord permettra à OpenAI d’utiliser le contenu archivé du FT pour former ses modèles d’IA, avec l’objectif d’améliorer la technologie de l’IA générative, capable de créer du texte, des images et du code qui ressemblent étroitement aux créations humaines.

Le partenariat entre le FT et OpenAI est décrit comme une collaboration visant à enrichir ChatGPT avec du contenu attribué, à améliorer l’utilité des modèles de l’IA en intégrant le journalisme du FT, et à collaborer au développement de nouveaux produits et fonctionnalités d’IA pour les lecteurs du FT. Le FT est également devenu client de ChatGPT Enterprise plus tôt cette année, offrant ainsi à tous ses employés l’accès à la technologie pour bénéficier des gains de créativité et de productivité rendus possibles par les outils d’OpenAI.

Selon les termes de l'accord, le FT accordera une licence d'utilisation de son matériel au créateur de ChatGPT pour l'aider à développer une technologie d'IA générative capable de créer des textes, des images et des codes impossibles à différencier des créations humaines. L'accord permet également à ChatGPT de répondre aux questions par de courts résumés d'articles du FT, avec des liens vers FT.com. Cela signifie que les 100 millions d'utilisateurs du chatbot dans le monde peuvent accéder aux articles du FT par l'intermédiaire de ChatGPT, tout en renvoyant à la source originale.

« Grâce à ce partenariat, les utilisateurs de ChatGPT pourront voir des résumés attribués, des citations et des liens riches vers le journalisme du FT en réponse à des requêtes pertinentes. En outre, le FT est devenu un client de ChatGPT Enterprise au début de cette année, en achetant un accès pour tous les employés du FT afin de s'assurer que ses équipes sont bien familiarisées avec la technologie et peuvent bénéficier de la créativité et des gains de productivité rendus possibles par les outils d'OpenAI », indique OpenAI.

Source : Mustafa Suleyman

Et vous ?

Que pensez-vous du positionnement de Mustafa Suleyman selon lequel dès que l'on publie quelque chose sur le web, cela devient un "freeware" que tout le monde peut copier et utiliser librement ?

Voir aussi :

Le New York Times envisage d'initier une action en justice contre OpenAI pour l'obliger à effacer les données d'entraînement de ChatGPT, le média dit non à l'usage de son contenu sans son accord

Musk s'engage à poursuivre Microsoft en justice, l'accusant de s'être « entraînée illégalement avec les données de Twitter », tandis qu'elle abandonne l'intégration de Twitter de sa plateforme pub

Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT. Selon eux, les livres sont un « ingrédient clé » du chabot IA

**Stéphane le calme** · 10/07/2024, 13h19

GitHub Copilot : un juge rejette la demande de protection des droits d'auteur en vertu de la DMCA,
dans le cadre d'un procès contre l'outil IA de Microsoft

En novembre 2022, des développeurs ont intenté une action en justice contre GitHub, Microsoft et OpenAI, alléguant que l’assistant de codage Copilot copiait illégalement leur code. Cependant, le juge a largement rejeté ces allégations, ne laissant que deux accusations en suspens. Le litige portait sur le fait que Copilot suggérait des extraits de code provenant de projets open source hébergés sur GitHub, sans respecter les licences d’origine ni donner le crédit approprié aux créateurs.

GitHub Copilot, qu'est-ce que c'est ?

Copilot a été lancé en fin juin 2021 dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

Nom : copilot.png
Affichages : 4076
Taille : 84,9 Ko

Quel est le problème avec Copilot ?

Peu après le lancement de la Preview de Copilot en 2021, certains développeurs ont commencé à s'alarmer de l'utilisation d'un code public pour entraîner l'IA de l'outil. L'une des préoccupations est que si Copilot reproduit des parties suffisamment importantes du code existant, il puisse violer les droits d'auteur ou blanchir le code open source dans des utilisations commerciales sans licence appropriée. L'outil peut également reproduire des informations personnelles que les développeurs ont publiées, et dans un cas, il a reproduit le code largement cité du jeu PC Quake III Arena de 1999, y compris le commentaire du développeur John Carmack.

Nom : brian.png
Affichages : 776
Taille : 32,5 Ko

L’utilisateur Hogan a aussi ajouté dans son fil de discussion : « Ce qui serait vraiment drôle, c'est que les gens qui maintiennent des dépôts populaires commençaient à mettre du mauvais code exprès ».

GitHub affirme que les dérapages de Copilot sont rares. Mais un autre utilisateur de Twitter, répondant au post de Ronacher, a écrit : « Et ici nous avons la preuve directe que GitHub reproduit directement un morceau de code sous GPL, ce qui prouve que c'est un outil vraiment dangereux à utiliser dans des environnements commerciaux ». Dans une autre réponse, on peut lire : « Lol, c'est du blanchiment de code… »

Selon le développeur et avocat Matthieu Butterick, Copilot soulève des questions juridiques relatives à la fois à la formation du système et à l'utilisation du système.

Après avoir mené une enquête avec ses confrères, il a décidé en novembre 2022 de porter plainte, décrivant la solution de Microsoft comme un produit d'IA qui « s'appuie sur un piratage de logiciels open source sans précédent » :

Aujourd'hui, nous avons déposé un recours collectif devant le tribunal fédéral américain de San Francisco, en Californie, au nom d'un groupe proposé de millions d'utilisateurs de GitHub. Nous contestons la légalité de GitHub Copilot (et d'un produit connexe, OpenAI Codex, qui alimente Copilot). La poursuite a été déposée contre un ensemble de défendeurs qui comprend GitHub, Microsoft (propriétaire de GitHub) et OpenAI.

En formant leurs systèmes d'IA sur des référentiels publics GitHub (bien que basés sur leurs déclarations publiques, peut-être bien plus), nous soutenons que les accusés ont violé les droits légaux d'un grand nombre de créateurs qui ont publié du code ou d'autres travaux sous certaines licences open source sur GitHub. Quelles licences ? Un ensemble de 11 licences open source populaires qui nécessitent toutes l'attribution du nom de l'auteur et des droits d'auteur, y compris la licence MIT, la GPL et la licence Apache. (Celles-ci sont énumérées dans l'annexe à la plainte.)

En plus d'avoir enfreint les exigences d'attribution de ces licences, nous soutenons que les défendeurs ont enfreint :

les conditions d'utilisation et les politiques de confidentialité de GitHub ;
le DMCA § 1202, qui interdit la suppression des informations de gestion des droits d'auteur ;
la loi californienne sur la protection de la vie privée des consommateurs ;
et d'autres lois donnant lieu à des réclamations légales connexes.

Un avis qui n'est finalement pas partagé par la justice

Microsoft possède GitHub et utilise la technologie générative d'apprentissage automatique d'OpenAI pour alimenter Copilot, qui complète automatiquement le code source pour les ingénieurs à mesure qu'ils saisissent des commentaires, des définitions de fonctions et d'autres invites.

Les plaignants sont donc mécontents que, selon eux, des parties de leur code source libre protégé par le droit d'auteur puissent être fournies - copiées, plutôt - par Copilot à d'autres développeurs pour qu'ils les utilisent, sans qu'ils soient dûment crédités et sans que les autres exigences des licences d'origine soient respectées.

L'affaire a débuté avec un total de 22 plaintes, qui ont été réduites au fur et à mesure que les sociétés défenderesses demandaient à ce que les accusations soient rejetées par le tribunal, demandes que le juge Jon Tigar a pour la plupart acceptées.

Dans une ordonnance rendue publique le vendredi 5 juillet, le juge Tigar a statué sur une nouvelle série de plaintes des plaignants et, dans l'ensemble, il a donné gain de cause à GitHub, à Microsoft et à OpenAI. Trois plaintes ont été rejetées et une seule a été maintenue. D'après le décompte des avocats de Microsoft et de GitHub, il ne reste plus que deux allégations au total.

Les plaintes les plus récemment rejetées étaient relativement importantes, l'une d'entre elles portant sur une infraction au Digital Millennium Copyright Act (DMCA), section 1202(b), qui stipule essentiellement que vous ne devez pas supprimer sans permission des informations cruciales relatives à la « gestion des droits d'auteur », telles que, dans ce contexte, l'identité de l'auteur du code et les conditions d'utilisation, comme les licences tendent à l'exiger. Dans le cadre de l'action collective, il a été avancé que Copilot supprimait ces informations lorsqu'il proposait des extraits de code des projets des utilisateurs, ce qui, selon eux, constituait une violation de l'article 1202(b).

Le juge n'a toutefois pas été d'accord, estimant que le code proposé par Copilot n'était pas suffisamment identique au travail des développeurs, protégé par le droit d'auteur, et que l'article 1202(b) ne s'appliquait donc pas. En effet, l'année dernière, GitHub aurait réglé son assistant de programmation pour qu'il génère de légères variations du code de formation ingéré, afin d'éviter que son résultat ne soit accusé d'être une copie exacte d'un logiciel sous licence.

Les plaignants ne seront pas en mesure de présenter une nouvelle plainte au titre de l'article 1202(b) du DMCA, le juge Tigar ayant rejeté l'allégation avec préjudice.

Nom : github.png
Affichages : 787
Taille : 57,7 Ko

Les développeurs ont insisté à plusieurs reprises sur le fait que Copilot pouvait générer, et générerait, du code identique à ce qu'ils avaient eux-mêmes écrit, ce qui constitue un pilier essentiel de leur action en justice puisque leur plainte en vertu de la loi sur le droit d'auteur (DMCA) est subordonnée à une exigence d'identité. Toutefois, le juge Tigar a estimé que les plaignants n'avaient pas démontré l'existence d'un tel cas, ce qui a entraîné le rejet de la plainte avec la possibilité de la modifier.

La plainte modifiée soutenait que la copie illégale de code était inévitable si les utilisateurs désactivaient l'interrupteur de sécurité anti-duplication de Copilot, et citait également une étude sur le code généré par l'IA pour tenter d'étayer leur position selon laquelle Copilot plagiait les sources, mais une fois de plus, le juge n'a pas été convaincu que le système de Microsoft volait le travail des gens de manière significative.

Plus précisément, le juge a cité l'observation de l'étude selon laquelle Copilot « émet rarement du code mémorisé dans des situations bénignes, et la plupart de la mémorisation ne se produit que lorsque le modèle a été invité avec de longs extraits de code qui sont très similaires aux données d'entraînement ».

« En conséquence, l'appui des plaignants sur une étude qui, tout au plus, affirme que Copilot peut théoriquement être incité par un utilisateur à générer une correspondance avec le code de quelqu'un d'autre n'est pas convaincant », conclut-il.

Implications

Cette décision a des implications majeures :

Légitimité de l’IA dans le développement : La décision renforce l’utilisation de l’IA pour accélérer le développement logiciel. Cependant, elle soulève également des questions sur la responsabilité et la transparence.
Licences open source : La communauté des développeurs doit réfléchir à la manière dont les licences open source sont respectées par les outils d’IA comme Copilot. Devrions-nous exiger un crédit explicite pour le code généré ?
Équilibre entre innovation et droits d’auteur : Comment pouvons-nous encourager l’innovation tout en protégeant les droits d’auteur des créateurs ? Cette affaire met en lumière ce dilemme.

En fin de compte, la décision du juge a des répercussions sur l’avenir de l’IA dans le développement logiciel. La communauté des développeurs doit continuer à débattre et à trouver des solutions équilibrées pour le bien de tous.

Sources : décision de justice (au format PDF), Quantifying Memorization Across Neural Language Models

Et vous ?

Quelle est votre opinion sur l’utilisation de l’IA pour générer du code ? Certains soutiennent que Copilot accélère le développement, tandis que d’autres craignent qu’il ne viole les droits d’auteur.

Comment devrions-nous équilibrer l’innovation technologique et le respect des droits d’auteur ? Copilot est-il un outil révolutionnaire ou une menace pour les créateurs ?

Quelles mesures devraient être prises pour garantir que Copilot respecte les licences open source ? Devrions-nous exiger un crédit explicite pour les extraits de code générés par l’IA ?

Pensez-vous que la décision du juge était juste ? Pourquoi ou pourquoi pas ?

**Anthony** · 11/07/2024, 14h31

Un juge a rejeté la majorité des plaintes dans un procès sur les droits d'auteur intenté par des développeurs contre l'assistant de codage GitHub Copilot, Microsoft et OpenAI, mais en laisse deux en suspens

Un juge a rejeté la majorité des plaintes dans le cadre d'un procès sur les droits d'auteur intenté par des développeurs contre GitHub, Microsoft et OpenAI.

GitHub est une plateforme de développement qui permet aux développeurs de créer, stocker, gérer et partager leur code. Il utilise le logiciel Git, fournissant le contrôle de version distribué de Git plus le contrôle d'accès, le suivi des bogues, les demandes de fonctionnalités logicielles, la gestion des tâches, l'intégration continue et les wikis pour chaque projet. Basée en Californie, elle est une filiale de Microsoft depuis 2018.

Microsoft Corporation est une multinationale américaine et une entreprise technologique dont le siège se trouve à Redmond, dans l'État de Washington. Ses produits logiciels les plus connus sont la gamme de systèmes d'exploitation Windows, la suite d'applications de productivité Microsoft 365, la plateforme de cloud computing Azure et le navigateur web Edge. Ses produits matériels phares sont les consoles de jeux vidéo Xbox et la gamme d'ordinateurs personnels à écran tactile Microsoft Surface. Microsoft a été classée n° 14 dans le classement Fortune 500 2022 des plus grandes entreprises américaines en fonction de leur chiffre d'affaires total, et elle a été le plus grand fabricant de logiciels au monde en termes de chiffre d'affaires en 2022, selon Forbes Global 2000. Elle est considérée comme l'une des cinq grandes entreprises américaines de technologies de l'information, aux côtés d'Alphabet (société mère de Google), d'Amazon, d'Apple et de Meta (société mère de Facebook).

OpenAI est une organisation américaine de recherche en intelligence artificielle (IA) fondée en décembre 2015 et dont le siège se trouve à San Francisco. Sa mission est de développer une intelligence artificielle générale "sûre et bénéfique", qu'elle définit comme "des systèmes hautement autonomes qui surpassent les humains dans la plupart des tâches économiquement utiles". En tant qu'organisation leader dans le boom actuel de l'IA, OpenAI est connue pour la famille GPT de grands modèles de langage, la série DALL-E de modèles texte-image, et un modèle texte-vidéo nommé Sora. Son lancement de ChatGPT en novembre 2022 est considéré comme le catalyseur d'un intérêt généralisé pour l'IA générative.

Le procès a été intenté par un groupe de développeurs en 2022 et comportait à l'origine 22 plaintes contre les entreprises, alléguant des violations de droits d'auteur liées à l'assistant de codage GitHub Copilot, doté d'une intelligence artificielle.

La décision du juge Jon Tigar, rendue publique la semaine dernière, ne laisse subsister que deux plaintes : l'une accusant les sociétés de violation de la licence open-source et l'autre de rupture de contrat. Cette décision marque un net recul pour les développeurs qui affirmaient que GitHub Copilot, qui utilise la technologie d'OpenAI et appartient à Microsoft, s'était illégalement entraîné sur leur travail.

Le rejet du tribunal s'est principalement concentré sur l'accusation selon laquelle GitHub Copilot viole le Digital Millennium Copyright Act (DMCA) en suggérant du code sans attribution appropriée. Une version modifiée de la plainte mettait en cause le filtre de détection de duplication de GitHub, qui permet aux utilisateurs de "détecter et supprimer" les suggestions de Copilot correspondant à du code public sur GitHub.

Les développeurs ont fait valoir que la désactivation de ce filtre permettrait de "recevoir du code identique" et ont cité une étude montrant comment les modèles d'IA peuvent "mémoriser" et reproduire des parties de leurs données d'apprentissage, y compris potentiellement du code protégé par le droit d'auteur.

Le juge Tigar a toutefois estimé que ces arguments n'étaient pas convaincants. Il a estimé que le code prétendument copié par GitHub n'était pas suffisamment similaire au travail original des développeurs. Le juge a également noté que l'étude citée mentionne elle-même que GitHub Copilot "émet rarement du code mémorisé dans des situations bénignes".

En conséquence, le juge Tigar a rejeté cette allégation avec préjudice, ce qui signifie que les développeurs ne peuvent pas déposer une nouvelle plainte. En outre, le tribunal a rejeté les demandes de dommages-intérêts punitifs et de réparation pécuniaire sous la forme d'un enrichissement sans cause.

Malgré cette décision importante, la bataille juridique n'est pas terminée. Les plaintes restantes concernant la rupture de contrat et les violations de la licence open-source sont susceptibles d'être poursuivies en justice.

Cette affaire met en lumière les défis et les complexités juridiques qui entourent les assistants de codage alimentés par l'IA et leur utilisation de bases de code existantes pour la formation.

Source : Ordonnance du juge Jon Tigar

Et vous ?

Quel est votre avis sur le sujet ?

Trouvez-vous la décision du juge Tigar crédible ou pertinente ?

Voir aussi :

GitHub Copilot, l'assistant de programmation basé sur l'IA, sous le feu des critiques, un développeur affirme qu'il émet de nombreux bouts de son code protégé par le droit d'auteur

Un développeur porte plainte contre GitHub Copilot, le décrivant comme un produit d'IA qui «s'appuie sur un piratage de logiciels open source sans précédent». Il vise le statut de recours collectif

**Jade Emy** · 23/07/2024, 13h19

Les moteurs de recherche alimentés par l'IA, comme Google et Microsoft, violent les droits d'auteur en utilisant des articles de presse sans autorisation, selon des éditeurs japonnais.

Les moteurs de recherche alimentés par l'IA, comme Google et Microsoft, violent les droits d'auteur en utilisant des articles de presse sans autorisation. Le gouvernement devrait donc réviser les lois sur la propriété intellectuelle, estiment les éditeurs japonais.

Vers la fin de l'année 2023, le New York Times a intenté une action en justice contre OpenAI et Microsoft pour violation des droits d'auteur. Il affirme que les entreprises ont illégalement fourni des "millions d'articles" à Bing Chat de Microsoft et à ChatGPT d'OpenAI pour développer leurs produits. Le New York Times affirmait également que l'index de recherche Bing de Microsoft copie son contenu en ligne et le donne aux utilisateurs sans l'autorisation de la publication, ce qui le prive de revenus d'abonnement, de licence, de publicité et d'affiliation. Le procès indique que les entreprises devraient être tenues responsables de "milliards de dollars de dommages".

Récemment, les médias japonais ont affirmé que la recherche par l'IA porte atteinte aux droits d'auteur et appellent à une réforme juridique. Les moteurs de recherche alimentés par l'intelligence artificielle fournis par les géants américains de la technologie tels que Google LLC et Microsoft Corp. enfreignent probablement les droits d'auteur, a déclaré une association gérée par les médias japonais.

Dans un communiqué, l'Association japonaise des éditeurs et rédacteurs de journaux a demandé aux entreprises qui exploitent de tels services d'obtenir le consentement des organismes de presse, car les réponses des moteurs de recherche ressemblent souvent à des articles dont la source n'a pas été autorisée.

Nom : 0.jpg
Affichages : 4134
Taille : 65,8 Ko

L'association a analysé le fait que les moteurs de recherche IA renvoient parfois des réponses inexactes car ils réutilisent ou modifient des articles de manière inappropriée et a souligné que les entreprises devraient s'assurer de l'exactitude et de la fiabilité de leurs services avant de les lancer. L'association a également exhorté le gouvernement japonais à revoir et à réviser de toute urgence les lois relatives à la propriété intellectuelle, telles que la loi sur les droits d'auteur.

Les moteurs de recherche IA, qui combinent les capacités des moteurs de recherche traditionnels avec l'IA générative, extraient des informations de plusieurs sites pour afficher une réponse résumée à la requête de l'utilisateur. Google a lancé ce service l'année dernière. L'association a fait valoir dans sa déclaration que si les moteurs de recherche traditionnels dirigent les utilisateurs vers divers documents protégés par le droit d'auteur disponibles en ligne, les moteurs de recherche à intelligence artificielle divulguent le contenu, ce qui en fait un type de service complètement différent.

Tout en soulignant que, dans de nombreux cas, le contenu essentiel de l'article référencé est repris dans son intégralité et constitue donc une violation du droit d'auteur, l'association a également mis l'accent sur la question des « recherches sans clic », dans lesquelles les utilisateurs ne visitent pas le site source. Elle a averti que le manque de trafic pourrait conduire à la diminution des activités de reportage des organismes de presse, ce qui aurait alors un impact négatif sur la démocratie et la culture.

La déclaration s'inquiète également des inexactitudes potentielles dans les réponses générées par les moteurs de recherche IA, qui pourraient donner l'impression que les articles sources eux-mêmes sont erronés et nuire à la crédibilité des organismes de presse. L'association a ajouté que la fourniture de services de moteurs de recherche d'IA sans avoir obtenu l'autorisation d'utiliser les articles sources pourrait constituer une violation de la loi antimonopole.

Dans un rapport publié à l'automne dernier, la Japan Fair Trade Commission a laissé entendre que les entreprises exploitant des moteurs de recherche, qui servent de passerelles vers les sites d'information, pourraient occuper une position dominante par rapport aux entreprises de médias, et a averti que si les frais d'utilisation des articles étaient très faibles, cela poserait un problème au regard de la loi.

Un porte-parole de Google a déclaré que ses services de recherche en intelligence artificielle respectaient les lois, notamment la loi japonaise sur le droit d'auteur. « Les services de Google permettent d'accéder à des informations de haute qualité et nous avons établi des relations de coopération à long terme avec les organismes de presse japonais », a déclaré le porte-parole.

Source : Association japonaise des éditeurs et rédacteurs de journaux

Et vous ?

Pensez-vous que cette plainte est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Le New York Times poursuit OpenAI et Microsoft pour violation des droits d'auteur, affirmant que des "millions d'articles" ont été utilisés pour former des chatbots

Les moteurs de recherche devraient-ils rémunérer les éditeurs de presse pour afficher leurs articles ? Un projet adopté par les ambassadeurs de l'UE

Huit éditeurs de presse poursuivent Microsoft et OpenAI pour violation du droit d'auteur lors de l'entraînement de ses modèles d'intelligence artificielle

**Stéphane le calme** · 17/08/2024, 17h44

De nombreux sites restreignent l'utilisation de leurs données pour empêcher la formation de modèles d'IA, selon une étude.
La « crise émergente du consentement » pourrait constituer une menace pour les entreprises d'IA

Au cours de l'année dernière, de nombreuses sources web essentielles utilisées pour former les modèles d’intelligence artificielle (IA) ont restreint l’utilisation de leurs données. Cette tendance a été mise en évidence par une étude du Data Provenance Initiative, un groupe de recherche dirigé par le MIT. L’étude a examiné 14 000 domaines web inclus dans trois ensembles de données d’entraînement couramment utilisés pour l’IA. Elle a révélé une « crise émergente du consentement », car les éditeurs et les plateformes en ligne ont pris des mesures pour empêcher l’extraction de leurs données.

Pendant des années, les concepteurs de puissants systèmes d'intelligence artificielle ont utilisé d'énormes quantités de textes, d'images et de vidéos tirés de l'internet pour entraîner leurs modèles.

Désormais, ces données sont en train de se tarir.

Selon une étude publiée par la Data Provenance Initiative, un groupe de recherche dirigé par le MIT, au cours de l'année écoulée, un grand nombre des principales sources web utilisées pour l'entraînement des modèles d'intelligence artificielle ont restreint l'utilisation de leurs données. L'étude, qui a porté sur 14 000 domaines web inclus dans trois ensembles de données d'entraînement d'IA couramment utilisés, a mis en évidence une « crise émergente du consentement », les éditeurs et les plateformes en ligne ayant pris des mesures pour éviter que leurs données ne soient récoltées.

Les chercheurs estiment que dans les trois ensembles de données (appelés C4, RefinedWeb et Dolma), 5 % de toutes les données, et 25 % des données provenant des sources de la plus haute qualité, ont été restreintes. Ces restrictions sont mises en place par le biais du protocole d'exclusion des robots, une méthode vieille de plusieurs décennies qui permet aux propriétaires de sites web d'empêcher les robots d'explorer leurs pages à l'aide d'un fichier appelé robots.txt.

L'étude a également révélé que 45 % des données d'un ensemble, C4, avaient été restreintes par les conditions d'utilisation des sites web.

Nom : un.png
Affichages : 12536
Taille : 72,7 Ko

La crise émergente du consentement

« Nous assistons à un déclin rapide du consentement à l'utilisation des données sur le web, ce qui aura des conséquences non seulement pour les entreprises d'intelligence artificielle, mais aussi pour les chercheurs, les universitaires et les entités non commerciales », a déclaré Shayne Longpre, l'auteur principal de l'étude, dans une interview.

Les données sont le principal ingrédient des systèmes d'IA générative actuels, qui sont alimentés par des milliards d'exemples de textes, d'images et de vidéos. La plupart de ces données sont extraites de sites web publics par des chercheurs et compilées dans de grands ensembles de données, qui peuvent être téléchargés et utilisés librement, ou complétés par des données provenant d'autres sources.

L'apprentissage à partir de ces données est ce qui permet aux outils d'IA générative tels que ChatGPT d'OpenAI, Gemini de Google et Claude d'Anthropic d'écrire, de coder et de générer des images et des vidéos. Plus ces modèles sont alimentés en données de haute qualité, meilleurs sont leurs résultats.

Pendant des années, les développeurs d'IA ont pu collecter des données assez facilement. Mais le boom de l'IA générative de ces dernières années a provoqué des tensions avec les propriétaires de ces données, dont beaucoup ont des réticences à être utilisés pour l'entraînement de l'I.A. ou, du moins, veulent être payés pour cela.

Face à la levée de boucliers, certains éditeurs ont mis en place des paywall ou modifié leurs conditions de service pour limiter l'utilisation de leurs données à des fins de formation de l'IA. D'autres ont bloqué les robots d'exploration du web, qui ne sont plus autorisés à utiliser leurs données à des fins de formation. D'autres ont bloqué les robots d'exploration du web utilisés par des sociétés comme OpenAI, Anthropic et Google.

Plusieurs sites ont commencé à faire payer l'accès aux données aux entreprises d'IA, et quelques éditeurs ont intenté des actions en justice, notamment le New York Times, qui a poursuivi OpenAI et Microsoft pour violation des droits d'auteur l'année dernière, alléguant que les entreprises avaient utilisé des articles d'actualité pour entraîner leurs modèles sans autorisation.

Ces dernières années, des entreprises comme OpenAI, Google et Meta ont déployé des efforts considérables pour recueillir davantage de données afin d'améliorer leurs systèmes, notamment en transcrivant des vidéos sur YouTube et en faisant des entorses à leurs propres politiques en matière de données.

Plus récemment, certaines entreprises d'IA ont conclu des accords avec des éditeurs tels que l'Associated Press et News Corp, le propriétaire du Wall Street Journal, leur donnant un accès permanent à leur contenu.

Nom : deux.png
Affichages : 1831
Taille : 68,7 Ko

Les conséquences pour l’IA

Les restrictions généralisées en matière de données peuvent constituer une menace pour les entreprises d'IA, qui ont besoin d'un approvisionnement régulier en données de haute qualité pour maintenir leurs modèles frais et à jour.

Elles pourraient également poser problème aux petites entreprises d'IA et aux chercheurs universitaires qui s'appuient sur des ensembles de données publiques et n'ont pas les moyens d'obtenir des licences directement auprès des éditeurs. Common Crawl, l'un de ces ensembles de données qui comprend des milliards de pages de contenu web et qui est géré par une organisation à but non lucratif, a été cité dans plus de 10 000 études universitaires, a déclaré Longpre.

On ne sait pas exactement quels produits d'IA populaires ont été formés à partir de ces sources, car peu de développeurs divulguent la liste complète des données qu'ils utilisent. Mais les ensembles de données dérivés de Common Crawl, y compris C4 (qui signifie Colossal, Cleaned Crawled Corpus) ont été utilisés par des entreprises telles que Google et OpenAI pour entraîner les versions précédentes de leurs modèles.

Yacine Jernite, chercheur en apprentissage automatique chez Hugging Face, une société qui fournit des outils et des données aux développeurs d'IA, a décrit la crise du consentement comme une réponse naturelle aux pratiques agressives de l'industrie de l'IA en matière de collecte de données. « Il n'est pas surprenant que les créateurs de données se rebiffent après que les textes, les images et les vidéos qu'ils ont partagés en ligne ont été utilisés pour développer des systèmes commerciaux qui menacent parfois directement leurs moyens de subsistance », a-t-il déclaré.

Il a toutefois mis en garde contre le fait que si toutes les données de formation à l'IA devaient être obtenues par le biais d'accords de licence, cela exclurait « les chercheurs et la société civile de la participation à la gouvernance de la technologie ».

Stella Biderman, directrice exécutive d'EleutherAI, une organisation à but non lucratif spécialisée dans la recherche sur l'IA, s'est fait l'écho de ces craintes. « Les grandes entreprises technologiques possèdent déjà toutes les données », a-t-elle déclaré. « Changer la licence sur les données ne révoque pas rétroactivement cette permission, et l'impact principal est sur les acteurs qui arrivent plus tard, qui sont typiquement soit des start-ups plus petites, soit des chercheurs ».

Les difficultés rencontrées par les entreprises d'IA et les solutions qu'elles envisagent

Les entreprises d'IA ont affirmé que leur utilisation des données publiques du web était légalement protégée par le principe de l'usage loyal. Mais la collecte de nouvelles données est devenue plus délicate. Certains dirigeants d'entreprises d'IA craignent de se heurter au « mur des données », terme qui désigne le moment où toutes les données de formation disponibles sur l'internet public ont été épuisées et où le reste a été caché derrière des paywalls, bloqué par des robots.txt ou enfermé dans des accords d'exclusivité.

Certaines entreprises pensent pouvoir franchir le mur des données en utilisant des données synthétiques (c'est-à-dire des données générées par des systèmes d'intelligence artificielle) pour entraîner leurs modèles. Mais de nombreux chercheurs doutent que les systèmes d'IA actuels soient capables de générer suffisamment de données synthétiques de haute qualité pour remplacer les données créées par l'homme qu'ils perdent.

Autre difficulté : si les éditeurs peuvent tenter d'empêcher les entreprises d'IA de récupérer leurs données en plaçant des restrictions dans leurs fichiers robots.txt, ces demandes ne sont pas juridiquement contraignantes et la conformité est volontaire. (Il s'agit en quelque sorte d'un panneau d'interdiction d'accès aux données, mais qui n'a pas force de loi).

Les principaux moteurs de recherche respectent ces demandes d'exclusion et plusieurs grandes entreprises d'IA, dont OpenAI et Anthropic, ont déclaré publiquement qu'elles les respectaient également. Mais d'autres entreprises, dont le moteur de recherche Perplexity, alimenté par l'IA, ont été accusées de les ignorer. Le directeur général de Perplexity, Aravind Srinivas, a déclaré que l'entreprise respectait les restrictions imposées par les éditeurs en matière de données. Il a ajouté que, bien que la société ait déjà travaillé avec des robots d'indexation tiers qui ne respectaient pas toujours le protocole d'exclusion des robots, elle avait « procédé à des ajustements avec nos fournisseurs pour s'assurer qu'ils respectent le protocole robots.txt lorsqu'ils effectuent des indexations pour le compte de Perplexity ».

Source : Le consentement en crise : le déclin rapide des données communes sur l'IA

Et vous ?

Quelle est la responsabilité des entreprises et des chercheurs dans la préservation des données utilisées pour l’entraînement des modèles d’IA ?

Comment pouvons-nous garantir un accès éthique et responsable aux données tout en respectant les droits des propriétaires de ces informations ?

Quels sont les risques potentiels si nous ne parvenons pas à résoudre cette crise émergente du consentement ?

Pensez-vous que les gouvernements devraient jouer un rôle plus actif dans la régulation de l’accès aux données pour l’IA ? Pourquoi ou pourquoi pas ?

**Mathis Lucas** · Hier, 12h20

L'ancien PDG de Google estime qu'il n'y a pas de mal à ce que les entreprises spécialisées dans l'IA volent des contenus
« vous pourrez nettoyer le gâchis plus tard avec de l'argent et une armée d'avocats »

Eric Schmidt, ancien PDG de Google, encourage sans scrupule les startups spécialisées dans l'IA à voler tous les contenus dont elles ont besoin pour atteindre leurs objectifs. L'homme d'affaires conseille aux startups d'IA de ne pas se soucier des retombées et dit qu'il y a deux issues possibles. Si vous réussissez, vous gagnerez beaucoup d'argent afin d'embaucher un peloton d'avocats pour nettoyer le gâchis. En revanche, il pense que le fait que vous ayez volé du contenu n'aura pas d'importance si vous échouez. Ses propos ont suscité des préoccupations majeures l'éthique des données dans les entreprises tels que Google et OpenAI.

Eric Schmidt : volez ce dont vous avez besoin et laissez vos avocats réparer les dégâts

Eric Schmidt a récemment participé à une conférence à l'université de Stanford, où il a parlé de l'avenir de l'IA et s'est lancé dans une diatribe contre le télétravail, sur laquelle il est revenu par la suite. Lors de la conférence, l'ancien PDG de Google a pris ses aises et a fait de nombreuses déclarations préoccupantes, tout en donnant des conseils douteux aux étudiants et aux startups spécialisées dans l'IA. La chose la plus surprenante que Schmidt ait dite lors de son intervention est que "les startups d'IA peuvent voler les données dont elles ont besoin pour entraîner leurs modèles d'IA", sans avoir peur des retombées.

Schmidt a déclaré à l'assemblée : « il n'y a pas de mal à voler du contenu si l'on réussit, car il suffit d'engager des avocats pour réparer les dégâts. Si personne n'utilise votre produit, le fait que vous ayez volé tout le contenu n'a pas d'importance ». Ayant dirigé Google de 2001 à 2011, Schmidt sait très bien ce que c'est que de devoir faire appel à une armée d'avocats pour réparer les dégâts. YouTube s'est développé à ses débuts grâce à des vidéos dont il n'avait pas les droits.

On pourrait dire que l'activité de Google Search elle-même s'est d'abord construite en accélérant le système juridique. Schmidt a tenu ces propos pendant qu'il exposait "un scénario théorique" dans lequel les étudiants présents dans la salle pourraient utiliser un grand modèle de langage (LLM) pour créer un concurrent de TikTok, dans le cas où la plateforme serait interdite aux États-Unis. Il a reconnu que le scénario pouvait être criblé de questions juridiques et éthiques.

Envoyé par Eric Schmidt

Voici ce que je propose à chacun d'entre vous. Dites à votre LLM ce qui suit : « faites-moi une copie de TikTok, volez tous les utilisateurs, volez toute la musique, mettez-y mes préférences, produisez ce programme dans les 30 prochaines secondes, publiez-le et dans une heure, s'il n'est pas viral, faites quelque chose d'autre dans la même veine ». C'est la commande.

Et ce que vous feriez si vous étiez un entrepreneur de la Silicon Valley, c'est que si cela décollait, vous embaucheriez tout un tas d'avocats pour réparer les dégâts, n'est-ce pas ? Si personne n'utilise votre produit, le fait que vous ayez volé tout le contenu n'a pas d'importance. Ne me citez pas. Oups !

À un moment donné, il a tenté de se rattraper en déclarant qu'il n'affirmait pas qu'il fallait voler illégalement la musique de tout le monde, bien qu'il ait conseillé aux étudiants, quelques instants plus tôt, de faire exactement la même chose. À bien des égards, les propos de l'ancien PDG de Google résument parfaitement l'attitude générale de l'industrie de l'IA à l'égard des contenus publiés en ligne et des produits d'autrui. OpenAI, Anthropic et bien d'autres sont tous concernés.

Cela fait des années que les entreprises récupèrent des contenus produits par des humains pour entraîner leurs modèles d'IA toujours plus gourmands. Et tandis que certaines entités, comme le New York Times, dénoncent les atteintes au droit d'auteur, Schmidt considère apparemment le vol présumé de propriété intellectuelle comme un « gâchis » que les avocats devront nettoyer plus tard. « La Silicon Valley effectuera ces tests et nettoiera le désordre », a déclaré Schmidt.

« Et c'est typiquement comme cela que ces choses sont faites », a-t-il ajouté, selon une transcription de l'événement. Il est revenu sur nombre de ses déclarations lors de l'événement et la vidéo a depuis été retirée du site après avoir fait l'objet de nombreuses critiques et d'une couverture médiatique très négative.

La capacité de la technologie à devenir rapidement et extrêmement rentable semble avoir dépassé de loin le système judiciaire et ce que n'importe quel procès peut être utilisé contre eux. Il en va de même pour tous les mastodontes de l'industrie pour lesquels les amendes sont comparables une petite tape sur les doigts.

L'IA déclenche une avalanche de poursuites pour violation de la propriété intellectuelle

Google n'est pas le seul dans ce cas. Les entreprises les plus influentes de la Silicon Valley ont adopté la même stratégie. À quelques exceptions près, elles ont décidé très tôt qu'il valait mieux demander le pardon que la permission. Lorsque les amendes devaient être payées, l'argent avait déjà été gagné. L'histoire se répète, et les entreprises d'IA les plus en vue, telles qu'OpenAI et Anthropic, suivent le même schéma, avec le soutien de dirigeants de la vieille garde comme Schmidt. Lors de la conférence à l'université de Stanford, Schmidt a déclaré que Sam Altman, PDG d'OpenAI, figure parmi ses amis très proches.

Selon les analystes, de nombreux dirigeants partagent le point de vue de Schmidt. Ils considèrent que l'argent et le pouvoir qui se profilent à l'horizon suffisent amplement à faire face aux dégâts causés en chemin. Ainsi, le développement de l'IA repose actuellement sur des données collectées à partir du travail des créateurs de contenu sans leur consentement ni un paiement. Cela a fonctionné pour Google, alors pourquoi cela ne fonctionnerait-il pas pour eux ?

Pourtant, une stratégie similaire a également mis certaines entreprises d'IA dans l'eau chaude. En décembre, le New York Times a intenté un procès à OpenAI et à Microsoft pour violation des droits d'auteur, alléguant que les deux entreprises ont formé leur IA sur des millions de ses articles. En avril, huit autres éditeurs de presse ont poursuivi OpenAI pour avoir prétendument utilisé leurs articles de presse protégés par des droits d'auteur sans autorisation ni paiement.

Schmidt a occupé plusieurs postes au sein de Google, dont celui de PDG pendant dix ans, au cours desquels il a dirigé l'entreprise lors du lancement de Chrome et de Gmail, de l'acquisition de YouTube et de son introduction en bourse en 2004. Schmidt, dont la valeur nette est estimée aujourd'hui à environ 31 milliards de dollars selon l'indice Bloomberg Billionaires, est un investisseur important, notamment dans des entreprises d'IA telles que Mistral AI, basée en France.

OpenAI a reconnu qu'il est impossible de créer des outils comme ChatGPT sans s’appuyer sur des contenus protégés par le droit d'auteur. Et alors que la course à l'IA s'intensifie, les éditeurs de journaux et autres propriétaires de données exigent une part du marché potentiellement gigantesque de l'IA générative, qui devrait atteindre 1300 millions de dollars d'ici à 2032. De nombreux rapports suggèrent que l'IA pourrait changer à jamais l'édition et le journalisme.

C'est la raison pour laquelle les éditeurs exigent une protection contre l'IA et une partie du butin que l'IA va générer, mais les contrats proposés aux éditeurs sont critiqués. OpenAI a signé des accords avec The Atlantic et Vox Media pour utiliser leur contenu afin de perfectionner ses modèles de langage, ce qui a surpris et inquiété les journalistes et leurs syndicats. Ils déplorent le manque de transparence de ces accords et craignent des impacts négatifs sur leur travail.

Perplexity AI, qui propose un moteur de recherche basé sur l'IA, est également au beau milieu d'un scandale de vol de données. Le moteur de recherche ignore le standard largement utilisé sur le Web depuis des décennies, appelé "Robots Exclusion Protocol" (protocole d'exclusion des robots - robots.txt), pour explorer subrepticement des zones de sites Web auxquels les opérateurs ne veulent pas que les robots d'indexation accèdent. Ce qui suscite des préoccupations majeures.

Une étude a révélé le mois dernier que Salesforce, Apple, Anthropic et d'autres ont formé leurs modèles d'IA sur des vidéos YouTube sans le consentement des créateurs. Ils se sont appuyés sur l'ensemble de données The Pile, compilé à partir de plus de 170 000 vidéos, dont des vidéos de vidéastes populaires tels que MKBHD, MrBeast et Jimmy Kimmel. Les experts affirment que ce comportement viole les droits des créateurs et les conditions d'utilisation de YouTube.

Mais les entreprises semblent prêtes à tout pour glaner des données indispensables à la formation de leurs modèles d'IA, à un moment où les sources de données se tarissent. L'IA bouleverse la propriétaire intellectuelle et pose d'autres défis. Il sera intéressant de voir comment ces questions seront traitées à l'avenir.

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des propos de l'ancien PDG de Google sur le vol des données pour former l'IA ?

Que pensez-vous de la philosophie « aller vite et casser les choses » des entreprises de la Silicon Valley ?

Pensez-vous que l'éthique des données sur laquelle se base l'industrie devrait s'appliquer aux IA ?

Quels impacts l'IA pourrait-elle avoir sur l'éthique des données et la propriétaire intellectuelle à l'avenir ?

Voir aussi

« Il est impossible de créer des outils comme ChatGPT sans contenus sous copyright », selon OpenAI qui suscite des réactions dont celles de fermer le service ou de l'amener à rémunérer les auteurs

OpenAI conteste les affirmations des auteurs selon lesquelles chaque réponse de ChatGPT est une œuvre dérivée, l'entreprise affirme que ces plaintes sont irrecevables et demande leur rejet

OpenAI et les médias : des accords de contenu dans l'ombre inquiètent les journalistes qui déplorent le manque de transparence et craignent des impacts négatifs sur leur travail

Eric Schmidt estime qu'il n'y a pas de mal à ce que les entreprises spécialisées dans l'IA volent des contenus

Discussions similaires

Partager

Partager