Apple et d'autres ont formé leurs modèles sur les transcriptions de dizaines de milliers de vidéos YouTube

**Mathis Lucas** · Aujourd'hui, 16h56

Apple et d'autres ont formé leurs modèles d'IA sur un ensemble de données compilé à partir des transcriptions de 173 536 vidéos réparties sur plus de 48 000 chaînes YouTube
sans le consentement des créateurs

Salesforce, Apple, Anthropic et d'autres géants de la Tech ont formé leurs modèles d'IA sur des vidéos YouTube sans le consentement des créateurs. Ils se sont appuyés sur l'ensemble de données The Pile, compilé à partir de plus de 170 000 vidéos, dont des vidéos de vidéastes populaires tels que Marquees Brownlee (MKBHD), MrBeast, Stephen Colbert et Jimmy Kimmel. Les experts affirment que ce comportement viole les droits des créateurs et les conditions d'utilisation de YouTube, mais les entreprises d'IA semblent prêtes à tout pour glaner des données indispensables à la formation de leurs modèles d'IA, à un moment où les sources de données se tarissent.

Wired et la société d'analyse Proof News ont récemment publié les résultats d'une enquête qui démontre l'ampleur de l'exploitation des vidéos YouTube par les entreprises d'IA. L'enquête révèle qu'un ensemble de données appelé The Pile, compilé par le groupe de recherche en IA EleutherAI, comprend des transcriptions de plus de 173 536 vidéos réparties sur plus de 48 000 chaînes YouTube. Tout cela a été fait à l'insu des créateurs de contenu. Cet ensemble de données a ensuite été exploité par les entreprises technologiques telles qu'Apple, Salesforce, Nvidia et Anthropic pour former leurs grands modèles de langage (LLM).

L'enquête met en lumière un aspect troublant de la technologie de l'IA : une grande partie de son développement repose sur des données collectées à partir du travail des créateurs de contenu sans leur consentement ni leur rémunération. La base de données se compose uniquement de transcriptions de vidéos, et non de vidéos ou d'images réelles, provenant de créateurs célèbres tels que Marques Brownlee et MrBeast, ainsi que d'organes d'information majeurs tels que le New York Times, la BBC et ABC News. Par exemple, Apple a utilisé The Pile pour ses modèles open source OpenELM qui sous-tendent Apple Intelligence.

Anthropic et Salesforce ont déjà confirmé avoir utilisé The Pile pour leurs systèmes d'IA. EleutherAI a déclaré avoir compilé The Pile pour offrir une base de données utiles aux personnes ou aux entreprises qui n'ont pas les ressources nécessaires pour rivaliser avec les Big Tech. Toutefois, The Pile a également été utilisé depuis par ces grandes entreprises. Les données d'EleutherAI ont déjà suscité la controverse par le passé. Et les nouvelles révélations de cette enquête ont contribué à déclencher une nouvelle vague de critiques acerbes. Sur X, Marquees Brownlee a dénoncé l'utilisation de cet ensemble de données par Apple.

Marques Brownlee a exprimé son inquiétude sur les médias sociaux, notant que ses données, parmi d'autres, avaient été extraites de vidéos YouTube sans autorisation appropriée. Il a toutefois reconnu qu'il est difficile d'attribuer les responsabilités lorsque Apple n'a pas collecté les données lui-même. Il a écrit :

Envoyé par Marquees Brownlee

Apple s'est procuré des données pour son IA auprès de plusieurs entreprises. L'une d'entre elles a récupéré des tonnes de données/transcriptions de vidéos YouTube, y compris les miennes. Apple évite techniquement la "faute" dans ce cas, car ce n'est pas lui qui récupère les données. Mais il s'agit d'un problème qui va évoluer pendant longtemps.

Sundar Pichai, PDG d'Alphabet, la société mère de Google et de YouTube, a déclaré que l'extraction de données sur YouTube pour former des modèles d'IA violait les conditions d'utilisation de la plateforme. En avril dernier, le directeur de YouTube, Neal Mohan, a souligné que ce type d'utilisation des données était expressément interdit par les conditions d'utilisation de YouTube. Il reste à voir si cela modifie le principe de "fair use" sur lequel s'appuient habituellement les entreprises d'IA collectant des données, y compris Google dans ses propres litiges. Il sera aussi intéressant de voir la réaction aura Google dans cette affaire.

Ce n'est pas la première fois que les entreprises d'IA sont accusées d'avoir transcrit des vidéos YouTube pour former leurs modèles. The Pile est très souvent utilisé et référencé dans les cercles de l'IA et a été utilisé par des entreprises technologiques pour la formation dans le passé. Il a été cité dans de nombreuses actions en justice intentées par des détenteurs de droits de propriété intellectuelle contre des entreprises d'IA et de technologie. Les défendeurs dans ces procès, y compris OpenAI, font valoir que ce type d'extraction de données est une "utilisation équitable". Les procès sont toujours en attente devant les tribunaux.

Mais cette fois-ci, Proof News a fait des recherches approfondies pour identifier les spécificités de l'utilisation des sous-titres de YouTube et est allé jusqu'à créer un outil que vous pouvez utiliser pour rechercher dans la pile des vidéos individuelles ou des chaînes. Ce travail révèle l'ampleur de la collecte de données et attire l'attention sur le peu de contrôle qu'exercent les détenteurs de droits de propriété intellectuelle sur l'utilisation de leurs œuvres lorsqu'elles se trouvent sur le Web ouvert. Comme souligné ci-dessus, la situation juridique concernant l'extraction de données pour la formation des modèles n'est toujours pas claire.

Envoyé par Critique

Ce qui a été violé, c'est l'utilisation de contenus protégés par des droits d'auteur sans l'autorisation des auteurs.

Prenons l'exemple de Marquees Brownlee, animateur sur YouTube. Il gagne de l'argent grâce aux publicités qui accompagnent ses articles sur la technologie. Supposons qu'une grande chaîne de télévision copie ses vidéos sans son autorisation, les diffuse avec des publicités et ne lui verse pas les revenus tirés de ces publicités. Il s'agirait d'une violation flagrante du droit d'auteur. Cela est couvert par la loi sur le droit d'auteur.

La difficulté réside dans le fait que les lois existantes sur le droit d'auteur, telles qu'elles sont fixées dans la Convention de Berne, sont basées sur la radiodiffusion et l'édition telles qu'elles existaient en 1971. Les ordinateurs étaient des mainframes détenus par un petit nombre de personnes. Il n'y avait pas d'Internet, pas de PC, pas de smartphones, pas de YouTube et pas de livres numériques. La formation de l'IA a maintenant rejoint cette liste.

Les juges ont fait de leur mieux pour étendre ces règles du début des années 1970 aux circonstances modernes, mais le résultat est un véritable gâchis. Un principe est en jeu. Le droit d'auteur sur le contenu peut être étendu à d'autres utilisations ou à des utilisations "dérivées", par exemple un film ou un jeu vidéo basé sur un roman. Là, le lien est évident. Quiconque regarde le film "À la poursuite d'Octobre rouge" sait qu'il est basé sur un roman de Tom Clancy.

Le problème survient lorsque les liens entre l'original et le dérivé s'éloignent. L'IA, qui s'entraîne sur des millions de mots, est en effet très éloignée. Certains disent que l'extension du droit d'auteur à cette utilisation va trop loin. D'autres disent que ce n'est pas le cas. Pour aggraver les choses, il n'existe pas de loi noire et blanche définissant ce qui est couvert par ces plus de quarante ans de progrès technologiques.

Une récente décision de justice concernant l'outil d'IA de génération de code Github Copilot stipule qu'il n'y a aucune infraction au droit d'auteur, du moins tant que le résultat des systèmes n'est pas identique au contenu original. Cette affaire fait partie d'un nombre croissant de litiges juridiques. Plusieurs recours collectifs intentés par des éditeurs et des auteurs contre des entreprises d'IA sont en rapport avec l'utilisation de livres comme données de formation des modèles. Des affaires similaires sont aussi en cours dans les secteurs de l'image et de la musique, et d'autres sont en train d'émerger dans le secteur de la vidéo.

Proof News a contacté plusieurs de ces créateurs pour obtenir des déclarations, ainsi que les entreprises qui ont utilisé l'ensemble de données. La plupart des créateurs ont été surpris que leur contenu ait été utilisé de cette manière, et ceux qui ont fait des déclarations ont critiqué EleutherAI et les entreprises qui ont utilisé The Pile. « Personne n'est venu me voir en me disant : "nous aimerions utiliser ceci". C'est mon gagne-pain, et je consacre du temps, des ressources, de l'argent et du temps de travail à la création de ce contenu. Le travail ne manque pas », a déclaré David Pakman, du talk-show David Pakman Show.

Julia Walsh, PDG de la société de production Complexly, responsable de la chaîne YouTube de vidéos scientifiques SciShow et d'autres contenus éducatifs de Hank et John Green, a déclaré : « nous sommes frustrés d'apprendre que notre contenu éducatif, produit avec soin, a été utilisé de cette manière sans notre consentement ». Cependant, pour sa part, Anthropic affirme qu'il n'y a pas de violation ici. C'est ce qu'a déclaré Jennifer Martinez, porte-parole de l'entreprise :

Envoyé par Jennifer Martinez, porte-parole d'Anthropic

The Pile comprend un très petit sous-ensemble de sous-titres YouTube. Les conditions d'utilisation de YouTube couvrent l'utilisation directe de sa plateforme, qui est distincte de l'utilisation de l'ensemble de données de The Pile. En ce qui concerne les violations potentielles des conditions d'utilisation de YouTube, nous vous renvoyons aux auteurs de The Pile.

La déclaration du porte-parole d'Anthropic contraste avec les déclarations de Sundar Pichai et du directeur de YouTube. Par ailleurs, la transparence concernant les sources de données utilisées pour former les modèles d'IA fait défaut aux entreprises d'IA. Apple a été critiquée pour ne pas avoir divulgué l'origine des données d'entraînement utilisées pour Apple Intelligence, sa future plateforme d'IA générative qui devrait être lancée sur des millions d'appareils cette année.

Au début de l'année, Mira Murati, directrice de la technologie d'OpenAI, a évité d'indiquer si des vidéos YouTube avaient été utilisées pour entraîner Sora lorsqu'elle a été interrogée par le Wall Street Journal. Sora est l'outil de génération de vidéos par l'IA d'OpenAI. Mira Murati a indiqué que les données utilisées étaient accessibles au public ou sous licence. Microsoft, Meta et plusieurs autres entreprises spécialisées dans l'IA éludent également la question ou refusent d'y répondre.

YouTube, réputé pour être le plus grand dépôt de vidéos au monde, propose non seulement des transcriptions, mais aussi des sons, des vidéos et des images, ce qui en fait un ensemble de données très intéressant pour l'entraînement de modèles d'IA. Un porte-parole de Google a déclaré à Proof News que Google avait pris des mesures au fil des ans pour empêcher l'extraction abusive et non autorisée de données sur la plateforme, mais n'a pas fourni de réponse plus précise.

Source : Proof News (1,2)

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous de l'utilisation des vidéos YouTube par les entreprises d'IA sans le consentement des créateurs ?

Selon vous, ce type d'extraction de données relève-t-il de l'utilisation équitable ? Si oui, quels seraient les impacts sur les créateurs ?

La loi sur le droit d'auteur doit-elle être mise à jour afin d'interdire l'extraction de données pour former l'IA ou pour l'autoriser ?

Voir aussi

Adobe achètera vos vidéos jusqu'à 7,25 dollars la minute pour former son générateur de texte en vidéo par IA afin de rattraper ses concurrents après la démonstration d'OpenAI

Le New York Times affirme qu'OpenAI a transcrit plus d'un million d'heures de vidéos YouTube pour entraîner son modèle d'IA GPT-4, violant ainsi les droits d'auteur des créateurs de la plateforme

Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT. Selon eux, les livres sont un « ingrédient clé » du chabot IA

**Daïmanu** · Aujourd'hui, 17h20

Quel est votre avis sur le sujet ?
Ce qui m'inquiète, c'est que ces retranscriptions proviennent déjà d'une IA avec ses limitations et ses fautes.

Comme le dit si bien Comment Ça Marche :

Certes, comme elle générée par des algorithmes de reconnaissance vocale et de l'intelligence artificielle, la transcription textuelle est "brute de fonderie", sans ponctuation, et souvent truffée de fautes. Mais elle dégrossit bien le travail, et le mieux est encore de l'essayer pour en percevoir toutes les possibilités.

Donc la qualité des sources est au moins discutable, pour l'anglais, et plus encore pour d'autres langues.

Sans compter qu'on apprend dans la première source que, dans les chaînes concernées se trouve celle d'un perroquet

Apple et d'autres ont formé leurs modèles sur les transcriptions de dizaines de milliers de vidéos YouTube

Intelligence artificielle

Discussions similaires

Partager

Partager