1 pièce(s) jointe(s)
OpenAI accusée de former GPT-4o sur les livres payants d'O'Reilly Media sans accord de licence
OpenAI accusée de former GPT-4o sur les livres payants d'O'Reilly Media sans accord de licence, d'après un nouveau rapport d'AI Disclosures Project
Un nouveau document publié par une organisation de surveillance de l'IA accuse sérieusement OpenAI de s'appuyer de plus en plus sur des livres non publics dont elle n'a pas obtenu la licence pour entraîner des modèles d'IA plus sophistiqués. Selon le rapport, GPT-4o a "reconnu" beaucoup plus de contenus de livres O'Reilly protégés par des droits d'auteur que les anciens modèles d'OpenAI, en particulier GPT-3.5 Turbo.
En 2024, des éditeurs de presse de Californie, du Colorado, de l'Illinois, de Floride, du Minnesota et de New York ont déclaré que Microsoft et OpenAI avaient utilisé des millions de leurs articles sans paiement ni autorisation pour développer des modèles d'intelligence artificielle pour ChatGPT et d'autres produits. La manœuvre intervenait suite à une sortie d’OpenAI dans laquelle le créateur de ChatGPT reconnaît qu’il est impossible de créer des outils de ce genre sans contenus sous copyright.
Un récent rapport semble confirmer ces plaintes. Selon l'AI Disclosure Project, une organisation à but non lucratif cofondée par le directeur des médias Tim O'Reilly et l'économiste Ilan Strauss, le dernier modèle d'OpenAI, GPT-4o, avait été pré-entrainé sur le contenu des livres payés d'O'Reilly Media. Le rapport affirme notamment que GPT-4o reconnaît mieux les livres payants que les modèles précédents.
Les chercheurs ont mené des expériences sur plusieurs modèles d'IA ouverte, dont GPT-4o, en utilisant 13 962 paragraphes extraits d'un total de 34 livres publiés par O'Reilly Media. La technique d'analyse utilisée était « DE-COP », introduite pour la première fois dans le monde universitaire en 2024, qui permet d'estimer les données de formation en fonction de la capacité d'un modèle spécifique à distinguer les textes originaux des auteurs humains des phrases similaires générées par l'IA.
Les résultats montrent que GPT-4o "reconnaît" le contenu des livres privés d'O'Reilly beaucoup mieux que GPT-3.5 Turbo, un modèle antérieur d'OpenAI. Les chercheurs ont analysé que GPT-4o est susceptible d'avoir appris ces livres au cours du processus de formation. "GPT-4o a une conscience remarquable du contenu payant par rapport au modèle précédent d'OpenAI", a déclaré Tim O'Reilly. "Cela suggère que le modèle a appris le matériel." Il a également souligné qu'O'Reilly Media, dont il est le PDG, n'a signé aucun accord de licence avec OpenAI.
OpenAI a déjà été impliqué dans plusieurs procès liés aux droits d'auteur, et des critiques ont été régulièrement émises sur la manière dont les matériaux protégés par les droits d'auteur sont utilisés comme données d'apprentissage. En conséquence, OpenAI a signé des accords de licence payants avec certains créateurs de contenu et médias d'information et a également mis en place un processus d'« opt-out » pour demander l'exclusion de l'apprentissage de son modèle, mais ce système n'est pas encore considéré comme parfait.
Cependant, un autre rapport a révélé que la startup a supprimé deux énormes ensembles de données, appelés "books1" et "books2", qui avaient été utilisés pour entraîner son modèle d'IA GPT-3. Les avocats de la firme Authors Guild ont déclaré en mai 2024 que les ensembles de données contenaient probablement plus de 100 000 livres publiés et qu'ils étaient au cœur des allégations selon lesquelles OpenAI avait utilisé des documents protégés par le droit d'auteur pour entraîner des modèles d'IA.
En outre, un ancien chercheur d'OpenAI, Suchir Balaji, avait déjà affirmé que l'entreprise a enfreint les lois sur le droit d'auteur américaines et détruit la viabilité commerciale des individus, des entreprises et des services Internet qui ont créé les données numériques utilisées pour entraîner ces systèmes d'IA. Il a notamment travaillé sur le modèle GPT-4 avant de quitter l'entreprise. Il était cité comme témoin dans les affaires judiciaires contre OpenAI comme ayant des « documents pertinents » sur la violation présumée des droits d'auteur par la startup. Malheureusement, il a été retrouvé mort dans son appartement le 26 novembre 2024.
Source : Rapport d'AI Disclosure Project
Et vous ?
:fleche: Pensez-vous que ce rapport est crédible ou pertinent ?
:fleche: Quel est votre avis sur le sujet ?
Voir aussi :
:fleche: OpenAI déclare la course à l'IA « terminée » si l'entraînement sur des œuvres protégées par le droit d'auteur n'est pas considéré comme une utilisation équitable, ajoutant que les États-Unis seraient perdants
:fleche: « Complot d'assassinat » : la mère de Suchir Balaji, le lanceur d'alerte d'OpenAI, partage une photo prise le jour de sa mort et affirme que plusieurs caméras de vidéosurveillance ont cessé de fonctionner
:fleche: Le New York Times et d'autres médias intentent un procès contre OpenAI qui pourrait mettre en jeu l'avenir de ChatGPT. Microsoft et OpenAI tentent de le faire annuler
Le "droit d'auteur" des "ayant tout les droits" ...
Le "droit d'auteur" est surtout devenu un abus :
Il a été tellement détourné qu'il est responsable de l'interdiction du prêt (via les DRM), de la censure DNS d'internet, des blocages du "piracy shield" italien.
L'IA ne copie pas, elle apprend, tout comme nous : Bientôt on devra payer une licence pour réutiliser une connaissance issue d'un document sous "droit d'auteur" ?
2 pièce(s) jointe(s)
Le juge rejette la demande d'OpenAI de rejeter les plaintes en matière de droits d'auteur
Le juge rejette la demande d'OpenAI de rejeter les plaintes en matière de droits d'auteur,
un succès du Times signerait l'arrêt de l'exploitation gratuite des œuvres protégées par l'industrie de l'IA
La semaine dernière, un juge du tribunal de district des États-Unis a rejeté la majeure partie de la requête d'OpenAI visant à rejeter une action en justice intentée par le New York Times à son encontre et à celle de son actionnaire minoritaire, Microsoft. Cette décision du juge Stein de laisser progresser le procès du New York Times contre OpenAI et Microsoft marque un tournant dans le débat sur l’utilisation des contenus protégés pour entraîner les IA. En rejetant les arguments d’OpenAI sur la prescription et en validant les accusations de violation directe et contributive des droits d’auteur, le tribunal envoie un signal fort : les entreprises technologiques ne peuvent pas simplement invoquer l’« usage loyal » pour justifier l’exploitation massive d’œuvres sans compensation.
Cependant, le rejet partiel de certaines plaintes (comme celles sur le parasitisme ou la suppression des métadonnées) montre que la bataille juridique reste complexe et que le Times devra prouver qu’OpenAI a délibérément enfreint ses droits plutôt que de simplement en bénéficier indirectement. Cette affaire soulève des questions plus larges sur l’équilibre entre innovation et protection des créateurs. Si le Times l’emporte, cela pourrait imposer des restrictions coûteuses aux développeurs d’IA, voire ralentir l’évolution des LLM. À l’inverse, une victoire d’OpenAI risquerait d’éroder davantage les droits des médias, déjà fragilisés par l’économie numérique. Dans les deux cas, le verdict aura des répercussions bien au-delà de cette affaire, définissant comment le droit d’auteur s’applique – ou échoue à s’appliquer – à l’ère de l’IA.
La semaine dernière, le juge Sidney Stein du tribunal fédéral de Manhattan a rendu une décision partagée dans l'affaire opposant le New York Times à OpenAI et Microsoft. Tout en rejetant plusieurs demandes des entreprises technologiques visant à écarter des éléments clés de la plainte, il a néanmoins accepté certaines de leurs requêtes limitant partiellement la portée du litige. Parmi les arguments rejetés figuraient ceux concernant la prescription des revendications sur des œuvres de plus de trois ans et la responsabilité indirecte dans les violations alléguées de droits d'auteur.
Les demandes relatives à la suppression des informations de copyright sous le régime de la Digital Millennium Copyright Act n'ont été que partiellement satisfaites, laissant ouverte une partie importante du débat juridique. Ce litige s'inscrit dans un contexte plus large où les entreprises d'IA défendent l'idée que leur utilisation de données publiques pour entraîner leurs modèles constitue une utilisation équitable au sens de la loi sur le droit d'auteur. Cette position est farouchement contestée par les détenteurs de contenus, mais la question fondamentale ne trouvera de réponse définitive qu'après une décision judiciaire claire ou une réforme législative.
L'affaire, particulièrement scrutée par l'industrie médiatique, pourrait établir un précédent crucial pour les questions de propriété intellectuelle à l'ère de l'intelligence artificielle. La procédure se poursuivra par une phase de découverte, après laquelle les parties soumettront leurs arguments pour un éventuel jugement sommaire. Si cette décision devait être défavorable au Times, le journal aurait la possibilité de faire appel.
Cette bataille juridique trouve son origine dans la plainte déposée par le New York Times en décembre 2023, accusant ChatGPT de violer ses droits d'auteur en reproduisant ses articles. OpenAI avait tenté de faire déclarer la plainte irrecevable pour prescription, arguant que le journal aurait dû engager des poursuites dès 2020, sachant que ses articles étaient utilisés pour entraîner l'IA. Pour étayer cette thèse, la société s'était appuyée sur un article du Times lui-même datant de novembre 2020, mentionnant qu'OpenAI analysait des milliards de mots en ligne.
Le juge Stein a cependant rejeté cet argument, estimant qu'OpenAI n'avait pas démontré de manière convaincante que le Times aurait dû anticiper, dès 2020, que ChatGPT reproduirait ultérieurement ses articles de manière litigieuse. Dans son raisonnement, le magistrat a souligné que le simple fait qu'un journaliste du Times ait évoqué la formation des modèles d'IA ne signifiait pas que le journal était conscient des potentielles violations qui surviendraient des années plus tard.
L'argument complémentaire d'OpenAI, selon lequel l'utilisation des articles du Times serait de "notoriété publique" depuis 2020, a également été écarté. Le juge a relevé que l'entreprise n'avait pas expliqué en quoi ces informations générales auraient dû alerter le Times sur les reproductions spécifiques qui font l'objet de la plainte. Il a particulièrement insisté sur le fait que la plainte portait sur des copies précises d'œuvres protégées, et non sur une utilisation générale des données.
Dans le fond, la décision valide la position du Times selon laquelle OpenAI n'a pas apporté la preuve que le journal aurait pu connaître à l'avance le fonctionnement exact de ChatGPT avant son lancement public. Le juge a ainsi rejeté la demande de classement pour prescription, qualifiant d'« homme de paille » l'argument d'OpenAI selon lequel le Times, en tant qu'éditeur expérimenté, aurait dû agir plus rapidement contre des violations qu'il ne pouvait alors connaître.
Le magistrat a toutefois laissé une porte ouverte à OpenAI, précisant que l'entreprise pourrait tenter d'établir lors de l'instruction que le Times avait effectivement connaissance des potentielles violations dès 2020. Mais à ce stade préliminaire, un rejet de la plainte lui paraissait prématuré. Cette même logique s'appliquerait à une affaire similaire impliquant le Daily News, selon le juge Stein.
Davida Brook, avocate principale représentant le New York Times, a accueilli favorablement cette décision, y voyant une victoire importante pour son client. Dans une déclaration, elle a salué l'analyse minutieuse du juge et confirmé que toutes les revendications en matière de droits d'auteur contre Microsoft et OpenAI seraient maintenues. « Nous nous réjouissons de poursuivre cette action pour le vol à grande échelle de millions d'œuvres protégées du Times », a-t-elle déclaré, marquant ainsi la détermination du journal à aller jusqu'au bout de ce combat judiciaire.
L'IA devant les Assises : Un procès pour l'ère algorithmique
Le New York Times a engagé des poursuites judiciaires contre OpenAI et Microsoft, les accusant d'avoir exploité illégalement son contenu protégé. Selon le quotidien, ces géants technologiques se seraient appuyés sur des millions de ses articles pour entraîner leurs systèmes d'intelligence artificielle, causant selon lui un préjudice économique considérable qui se chiffrerait en milliards de dollars.
Dans cette affaire portée devant le tribunal fédéral de Manhattan, le New York Times soutient que les chatbots développés par ces entreprises, alimentés par son contenu journalistique, représentent une menace concrète pour la profession journalistique. La plainte dénonce une utilisation massive et non autorisée d'articles protégés pour perfectionner des produits comme ChatGPT et Bing Chat, qui viendraient directement concurrencer le travail des rédactions.
Le journal met particulièrement en cause les pratiques des deux entreprises, qu'il accuse d'avoir systématiquement copié son contenu pour développer leurs modèles linguistiques avancés. « Les défendeurs ont délibérément exploité notre investissement journalistique substantiel pour créer des produits concurrents, sans jamais solliciter d'autorisation ni proposer de compensation », peut-on lire dans les documents judiciaires.
Cette action en justice souligne le conflit croissant entre les créateurs de contenu original et les développeurs de technologies d'IA. Le Times y voit une appropriation illicite de sa propriété intellectuelle, tandis qu'OpenAI et Microsoft défendent le principe d'utilisation équitable (fair use), estimant que leur approche relève de l'innovation technologique légitime. L'issue de ce procès pourrait établir un précédent important pour l'industrie médiatique à l'ère du numérique.
En mars 2023, Microsoft a engagé une contre-offensive juridique en demandant le rejet de plusieurs chefs d'accusation formulés par le New York Times, qualifiant les craintes du journal sur l'impact de l'IA sur le journalisme indépendant de "scénario catastrophiste injustifié". Cette manœuvre procédurale intervient quelques semaines après une démarche similaire d'OpenAI visant à limiter la portée du litige.
Dans un contraste frappant avec la position conflictuelle du New York Times, le Financial Times a opté pour la voie de la collaboration en signant un accord de licence avec OpenAI. Ce partenariat stratégique autorise l'utilisation des archives du célèbre quotidien économique britannique pour alimenter les algorithmes d'apprentissage des modèles génératifs d'OpenAI, ces systèmes révolutionnaires capables de reproduire des productions humaines complexes.
L'essor fulgurant des technologies d'IA comme GPT s'appuie fondamentalement sur l'ingestion massive de données textuelles, incluant fréquemment des contenus protégés par des droits d'auteur. Cette pratique fait l'objet d'une contestation croissante de la part du New York Times et d'autres éditeurs, qui dénoncent une exploitation systématique de leur propriété intellectuelle sans autorisation ni contrepartie financière.
L'affaire prend une tournure plus complexe avec les dernières allégations du Times concernant la disparition suspecte de preuves potentielles. Le journal accuse OpenAI d'avoir involontairement effacé des éléments cruciaux suite à un incident technique, ce qui selon lui entraverait sérieusement la démonstration des violations alléguées et l'obtention d'une réparation équitable.
En avril 2024, le New York Times a intensifié son offensive contre OpenAI en révélant des pratiques controversées de collecte de données. Selon une enquête approfondie du journal, la société aurait utilisé illégalement plus d'un million d'heures de vidéos YouTube pour entraîner son modèle GPT-4. Le plus surprenant est que Google, propriétaire de YouTube via Alphabet, aurait fermé les yeux sur ces agissements - probablement parce qu'il emploierait lui-même des méthodes similaires pour ses propres modèles d'IA. Ces pratiques contreviennent non seulement aux conditions d'utilisation de YouTube, mais violent potentiellement les droits d'auteur de millions de créateurs de contenu.
L'insatiable appétit des systèmes d'IA en données pose un défi majeur. Ces technologies - qu'il s'agisse de modèles d'apprentissage automatique, d'analyse prédictive ou de capacités de généralisation - reposent entièrement sur la disponibilité de masses colossales d'informations variées. Cette dépendance est telle qu'on compare souvent les données au "carburant" indispensable au développement de l'intelligence artificielle. Si les récentes avancées spectaculaires ont été possibles grâce au pillage systématique des ressources disponibles sur le web, cette manne pourrait bientôt se tarir, menaçant l'avenir même de ces technologies.
Des experts sonnent l'alarme : l'industrie de l'IA se dirige droit vers une crise des données. Le New York Times a récemment documenté les méthodes parfois douteuses employées par ces entreprises pour contourner la future pénurie. Ces tactiques, qui flirtent souvent avec l'illégalité, consistent essentiellement à puiser dans des sources protégées sans compensation pour les ayants droit. Artistes, écrivains, créateurs de contenu - tous voient leur travail exploité sans contrepartie par des géants technologiques en quête perpétuelle de nouvelles données à ingurgiter.
Le jugement préliminaire dans l'affaire OpenAI : prélude à une révolution du droit d'auteur ?
Cette affaire pourrait redéfinir les limites légales de l’entraînement des IA et poser une question cruciale : comment concilier innovation technologique et respect de la propriété intellectuelle ?
La décision du juge Stein de permettre au procès de se poursuivre constitue un développement juridique significatif, mais ne doit pas être interprétée comme une victoire définitive pour le New York Times. Le rejet des arguments sur la prescription et le maintien des accusations principales montrent effectivement que les tribunaux prennent au sérieux les préoccupations concernant l'utilisation non autorisée de contenus protégés. Cependant, comme le soulignent plusieurs commentaires, cette décision préliminaire ne préjuge en rien du fond de l'affaire - elle indique simplement que les allégations du Times méritent d'être examinées plus avant.
La complexité du débat apparaît clairement dans les positions divergentes exprimées. D'un côté, certains estiment que le processus d'apprentissage des LLM s'apparente à une forme de synthèse cognitive similaire à l'apprentissage humain, ce qui pourrait relever du "fair use". D'autres soulignent avec justesse la différence fondamentale entre une personne qui lit des contenus pour son enrichissement personnel et une entreprise qui commercialise un produit basé sur ces mêmes contenus sans compensation. Cette distinction est cruciale et mériterait d'être au cœur du débat juridique.
Sur le plan technique, l'argument comparant les LLM à des moteurs de recherche améliorés semble réducteur. Comme le note un commentaire avisé, les modèles de langage opèrent une véritable transformation des données, créant des outputs statistiquement probables plutôt que de simplement référencer des sources. Cette caractéristique pourrait jouer en faveur d'OpenAI dans l'analyse du « fair use », mais ne résout pas pour autant la question éthique de la juste rémunération des créateurs.
L'affaire révèle surtout l'inadéquation croissante des cadres juridiques existants face aux innovations technologiques. Le droit d'auteur, conçu pour un monde analogique, peine à appréhender les réalités du big data et de l'IA. Plutôt qu'une simple bataille entre un média et une entreprise technologique, ce procès pourrait devenir le catalyseur d'une refonte nécessaire du système de propriété intellectuelle.
En définitive, quelle que soit l'issue du procès, cette affaire souligne l'urgence d'établir un nouveau contrat social pour l'ère numérique - un équilibre qui protège à la fois les droits des créateurs et les potentialités innovantes de l'IA, sans pour autant sacrifier l'un au profit de l'autre.
Source : U.S. District Judge Sidney Stein denies OpenAI's motion to dismiss the NYT's copyright claims
Et vous ?
:fleche: Le New York Times peut-il prouver un préjudice économique direct ?
:fleche: L'« usage loyal » (fair use) est-il vraiment applicable à l’entraînement des IA ?
:fleche: Une régulation trop stricte ne risquerait-elle pas de bloquer l’innovation en IA ?
:fleche: Les LLM sont-ils des « moteurs de recherche améliorés » ou des plagiaires automatisés ?
Voir aussi :
:fleche: Le New York Times poursuit OpenAI et Microsoft pour violation des droits d'auteur, affirmant que des "millions d'articles" ont été utilisés pour former des chatbots
:fleche: Microsoft accuse le New York Times de propager une « futurologie apocalyptique » dans le cadre du procès OpenAI et demande de rejeter des éléments clés du procès intenté pour violation du copyright
:fleche: Alors que le New York Times poursuit OpenAI pour violation des droits d'auteur, le Financial Times accepte de conclure un accord de licence de contenu avec OpenAI pour alimenter officiellement son IA générative
1 pièce(s) jointe(s)
Un développeur signale que Microsoft GitHub Copilot s'est activé sans son consentement explicite
Un développeur signale que Microsoft GitHub Copilot s'est activé sans son consentement explicite dans des espaces de travail privés,
les exposant à des risques de sécurité et de confidentialité
GitHub Copilot, l’assistant de codage alimenté par l’intelligence artificielle de Microsoft et OpenAI, est devenu un outil incontournable pour de nombreux développeurs. Son rôle est de suggérer du code en temps réel, facilitant ainsi la programmation et accélérant le processus de développement. Cependant, un incident récent a mis en lumière un problème majeur : récemment, un utilisateur de GitHub Copilot a signalé que l'outil s'était activé automatiquement dans ses espaces de travail privés locaux sans son consentement.
Ce dysfonctionnement a exposé des données sensibles et soulève des questions sur la gestion du consentement et de la confidentialité dans l’utilisation de cette technologie. Cette situation soulève des préoccupations cruciales sur la sécurité des outils d’IA dans les environnements de développement et sur le respect des choix des utilisateurs.
L'incident a été porté à l'attention de la communauté des développeurs après qu’un utilisateur a signalé, via GitHub, que Copilot s'était activé de manière autonome dans ses espaces de travail privés locaux. Ces espaces, qui contiennent des informations sensibles comme des clés d'API, des certificats, et d'autres secrets, ont vu l’activation de l'outil sans que l’utilisateur n'ait explicitement autorisé cette action. Ce comportement de GitHub Copilot a non seulement mis en péril la sécurité de ces données, mais il a aussi enfreint la confiance fondamentale entre l'outil et l'utilisateur.
Dans un post détaillé sur GitHub, l'utilisateur a expliqué que, bien que Copilot ait été configuré pour ne fonctionner que sur certains fichiers ou dans des espaces de travail publics, l'outil a décidé de s'activer dans tous ses environnements de développement, y compris les espaces de travail privés. Cette activation non sollicitée a eu des conséquences directes sur la sécurité et la confidentialité des projets, car certaines données sensibles pourraient avoir été envoyées à des serveurs externes sans que l'utilisateur n'en ait été informé ni en ait donné son consentement. :
Citation:
J'active Copilot pour des fenêtres spécifiques, car tous mes dépôts ne sont pas publics. Certains appartiennent à des clients pour lesquels je travaille et qui n'ont pas consenti à ce que je partage le code avec des tiers.
Aujourd'hui, Copilot s'est activé pour toutes mes fenêtres VSCode ouvertes sans mon consentement. J'ai activé le mode agent, donc vous pouvez ou non avoir une copie de tous les fichiers contenant les clés, les secrets yaml, les certificats et ainsi de suite. Ce n'est pas correct.
Je n'ai que 2 fenêtres où j'ai octroyé les droits à Copilot, toutes les autres étaient hors limites et pourtant je retourne au travail et je trouve qu'elles ont toutes activé Copilot et qui sait quel code est allé où.
Si vous avez l'intention de devenir un outil de développement de code sérieux, alors corrigez ce problème pour qu'il ne se reproduise plus. Les espaces de travail VSCode où github est désactivé doivent le rester. Merci de votre compréhension.
L'activation non sollicitée : un problème de sécurité
L’activation automatique de Copilot dans des espaces de travail privés n’est pas seulement une nuisance, c'est un véritable problème de sécurité. Lorsqu’un utilisateur choisit de travailler sur un projet privé, il suppose que ses données sont protégées par des paramètres stricts de confidentialité. Cependant, lorsque Copilot se déclenche sans autorisation dans ces environnements, il y a un risque tangible que des informations sensibles soient partagées avec des serveurs distants. Ces informations peuvent inclure des mots de passe, des configurations de base de données, des clés API ou même des fragments de code propriétaires, qui ne devraient jamais être exposés sans un contrôle clair et une confirmation explicite de l'utilisateur.
Une telle brèche pourrait avoir des conséquences graves, non seulement pour l'utilisateur en question, mais aussi pour ses clients ou partenaires, s'il travaille sur des projets professionnels. De plus, l'activation non sollicitée du service peut également signifier que les suggestions de code générées par Copilot sont basées sur des données privées, ce qui pose des questions sur la confidentialité des modèles d'IA utilisés par GitHub Copilot.
Problèmes de consentement et de transparence
L'une des préoccupations majeures soulevées par cet incident est le respect du consentement des utilisateurs. GitHub Copilot, comme de nombreux outils alimentés par l'IA, nécessite que les utilisateurs aient un contrôle total sur son activation et son utilisation. L'activation automatique dans des espaces de travail privés sans préavis ni permission enfreint ce principe fondamental. Les utilisateurs doivent pouvoir choisir explicitement d'activer ou de désactiver l'outil dans des projets spécifiques, qu'ils soient publics ou privés.
Ce genre de dysfonctionnement peut aussi être vu comme un manque de transparence de la part de GitHub. Si un tel outil est capable de s'activer sans intervention de l'utilisateur, cela soulève des questions légitimes sur la façon dont les informations sont traitées, où elles sont envoyées, et comment elles sont utilisées. Les utilisateurs doivent avoir une compréhension claire des données collectées par l'outil et être capables de contrôler cette collecte. En l'absence de telles garanties, la confiance dans l'outil s'effrite rapidement.
Réactions et implications pour les développeurs
Après la publication du problème sur GitHub, de nombreux développeurs ont réagi, soulevant des inquiétudes similaires. Certains ont signalé que l'activation automatique de Copilot dans des espaces privés a entraîné une exposition involontaire de code sensible, notamment dans des environnements de développement où les secrets ne sont pas censés être partagés. D'autres ont signalé que l'activation de Copilot, même sur des projets publics, peut conduire à la collecte de données qui ne sont pas nécessairement pertinentes pour l'amélioration du modèle, mais qui peuvent quand même être utilisées pour affiner les suggestions d’IA.
Un internaute raconte ce qu'il a vécu :
Citation:
J'utilise les utilisateurs de GitHub pour segmenter, j'ai toute une série de fichiers de configuration pour cela. Copilot a commencé à les ignorer et à s'activer dans des dossiers auxquels ces comptes n'ont pas accès. Je suppose qu'il s'agit du même comportement. Je dois maintenant me déconnecter de tous les comptes lorsque j'ouvre un espace de travail/une fenêtre et me reconnecter aux comptes que les fichiers de configuration devraient autoriser.
Je pense que leur agent qui code l'agent est devenu trop zélé.
Un autre de déclarer : « Je suis presque sûr que j'ai désactivé le copilote, mais il y a eu une mise à jour VS et il a été activé comme par magie ».
Un autre : « Copilot s'est activé en tant que réviseur sur les dépôts de notre organisation sans préavis. Et comme le lien hypertexte "request" est minuscule, il y a très peu d'espace entre les utilisateurs dans la liste des relecteurs suggérés, et Copilot s'est placé tout en haut... il y a eu quelques cas où les développeurs ont accidentellement demandé à Copilot de revoir des PR dans nos dépôts privés avant que nous ne comprenions ce qui se passait. »
Tandis qu'un autre tente d'expliquer le comportement de l'outil :
Citation:
Microsoft a modifié la façon dont Copilot est intégré dans Windows 11. Le paramètre GPO qui désactivait l'icône n'est plus valide pour la nouvelle version de l'application Copilot.
En fonction de votre version de Windows 11, certaines étapes sont décrites dans l'article Supprimer ou empêcher l'installation de l'application Copilot.
Fondamentalement, vous utilisez PowerShell pour désinstaller le paquet et ensuite utiliser AppLocker pour bloquer la réinstallation potentielle.
Il est possible qu'ils ajoutent un jour quelque chose à la stratégie de groupe pour la bloquer, mais pour l'instant, il s'agit simplement de supprimer le paquet et, si possible dans votre version de Windows, de l'empêcher d'être réinstallé à l'avenir.
Cette situation met en lumière la tension entre l'efficacité de l'IA et la nécessité de protéger la confidentialité des utilisateurs. GitHub Copilot, en tant qu'outil d'automatisation, peut être extrêmement utile pour accélérer le développement logiciel, mais il doit aussi respecter des standards de sécurité et de confidentialité plus stricts, en particulier lorsqu'il interagit avec des projets sensibles.
Quelles solutions pour l'avenir ?
Afin de prévenir de tels incidents à l'avenir, plusieurs mesures peuvent être mises en place :
- Contrôles plus stricts sur l'activation de Copilot : GitHub pourrait permettre aux utilisateurs de mieux contrôler quand et où Copilot est activé, y compris des paramètres permettant d’exclure certains répertoires ou fichiers spécifiques de son utilisation.
- Meilleure gestion des données sensibles : GitHub pourrait également améliorer la gestion des données sensibles. Par exemple, des mécanismes de sécurité renforcés pourraient être mis en place pour s'assurer que des données sensibles ne sont jamais envoyées à leurs serveurs sans un consentement explicite.
- Clarté sur l’utilisation des données : GitHub devrait fournir davantage de transparence sur l'utilisation des données envoyées par Copilot, expliquant clairement aux utilisateurs comment leurs données sont traitées et utilisées pour améliorer le modèle.
- Amélioration de la gestion de la confidentialité : Une solution de « Trust Workspace » déjà disponible dans Visual Studio Code pourrait être intégrée de manière plus proactive pour restreindre l'accès de Copilot aux espaces de travail de confiance, en particulier dans les environnements privés.
Un appel à la responsabilité
L'incident où GitHub Copilot s'est activé sans consentement dans des espaces de travail privés est un rappel important de la nécessité de maintenir des normes de confidentialité et de sécurité élevées dans le développement d'outils alimentés par l'IA. Il est crucial que des mesures adéquates soient mises en place pour protéger les utilisateurs et garantir que leurs données sensibles ne soient jamais exposées sans leur autorisation explicite.
Cet incident souligne également le rôle des développeurs dans la surveillance et le contrôle des outils qu’ils utilisent. Tandis que l’intelligence artificielle peut accélérer le développement logiciel et améliorer la productivité, il est impératif que des garanties de sécurité et de consentement transparent soient intégrées dès la conception des outils pour éviter de telles erreurs. Si GitHub et d'autres entreprises technologiques ne parviennent pas à répondre de manière appropriée à ces préoccupations, ils risquent de perdre la confiance d'une communauté de développeurs de plus en plus consciente des enjeux liés à la confidentialité et à la sécurité des données.
Sources : GitHub, Microsoft
Et vous ?
:fleche: Utilisez-vous Copilot ou un outil d'IA dans vos activités professionnelles ? Avez-vous également rencontré une situation similaire, directement ou indirectement ?
:fleche: Dans quelle mesure les outils d'IA comme GitHub Copilot devraient-ils être transparents concernant l'utilisation des données des utilisateurs, surtout lorsqu'il s'agit de données sensibles dans des espaces de travail privés ?
:fleche: Les utilisateurs devraient-ils avoir la possibilité de désactiver Copilot pour certains fichiers ou répertoires dans leurs espaces de travail locaux, même après l'avoir activé dans un autre environnement de développement ?
:fleche: Est-il acceptable pour un outil comme GitHub Copilot de collecter des données provenant de projets privés sans le consentement explicite de l'utilisateur, même si ces données ne sont pas directement utilisées dans la formation du modèle d'IA ?
:fleche: Quelles autres fonctionnalités GitHub pourrait-il intégrer pour garantir que les utilisateurs ont un contrôle total sur les espaces de travail privés et publics ?
:fleche: Les entreprises technologiques devraient-elles être légalement tenues de fournir un consentement explicite pour tout outil utilisant des données privées, même dans des environnements locaux de développement ?
:fleche: L’incident soulève-t-il un besoin d’une réglementation plus stricte sur la gestion des données collectées par les outils d’intelligence artificielle dans des environnements privés ?
Voir aussi :
:fleche: L'outil d'IA GitHub Copilot améliore-t-il la qualité du code ? Si GitHub estime que le code produit est plus fonctionnel, GitClear note que cela peut entraîner « une dette technique induite par l'IA »
:fleche: GitHub Copilot : un juge rejette la demande de protection des droits d'auteur en vertu de la DMCA dans le cadre d'un procès contre l'outil IA de Microsoft
2 pièce(s) jointe(s)
Le PDG de Microsoft affirme que jusqu'à 30 % du code de l'entreprise a été généré par son IA Copilot
Le PDG de Microsoft affirme que jusqu'à 30 % du code de l'entreprise a été généré par son IA Copilot, innovation ou dépendance algorithmique ?
L’IA s’impose dans l’environnement quotidien des développeurs Microsoft
Le PDG de Microsoft, Satya Nadella, a déclaré que 20 à 30 % du code contenu dans les référentiels de l'entreprise était « écrit par un logiciel », c'est-à-dire par l'IA, lors d'une discussion avec le PDG de Meta, Mark Zuckerberg, à l'occasion de la conférence LlamaCon de Meta qui s'est tenue mardi. Nadella a donné ce chiffre après que Zuckerberg lui a demandé quelle proportion du code de Microsoft était générée par l'IA aujourd'hui. Le PDG de Microsoft a déclaré que l'entreprise obtenait des résultats mitigés en matière de code généré par l'IA dans différents langages, avec davantage de progrès en Python et moins en C++.
Contexte
Kevin Scott, directeur technique de Microsoft, a déclaré précédemment qu'il s'attendait à ce que 95 % de l'ensemble du code soit généré par l'IA d'ici 2030.
Lorsque Nadella a posé la question à Zuckerberg, le PDG de Meta a répondu qu'il ne savait pas quelle proportion du code de Meta était générée par l'IA.
Lors de la conférence téléphonique sur les résultats de Google, le rival de Microsoft, la semaine dernière, le PDG Sundar Pichai a déclaré que l'IA générait plus de 30 % du code de l'entreprise (une augmentation de 5% si on tient compte de ses déclarations précédentes). Bien sûr, on ne sait pas exactement comment Microsoft et Google mesurent ce qui est généré par l'IA et ce qui ne l'est pas, de sorte que ces chiffres sont à prendre avec des pincettes.
L'IA dans le développement logiciel chez Microsoft
Lors d’une discussion publique à LlamaCon (conférence IA de Meta), Satya Nadella a révélé que « 20-30 % du code » hébergé dans les dépôts de Microsoft est aujourd’hui « écrit par un logiciel » – autrement dit, généré par une intelligence artificielle.
L’annonce de Nadella n’est pas un hasard. Microsoft a massivement intégré l’IA dans ses outils de développement. En particulier, GitHub Copilot est devenu le compagnon codant par défaut de nombreux développeurs. Cette extension (disponible dans Visual Studio Code, Visual Studio, JetBrains, etc.) utilise le modèle Codex d’OpenAI – entraîné sur des milliards de lignes de code public – pour suggérer automatiquement des fonctions ou des lignes de code selon le contexte.
Microsoft a même rebaptisé de nombreux assistants sous la marque “Copilot” : il existe une douzaine de produits Copilot, pour résumer les emails (Copilot dans Outlook), transcrire des réunions (Copilot pour Teams), guider l’utilisation de Windows ou générer du code sur GitHub. La tendance est globale : GitHub annonce avoir atteint 1,3 million d’abonnés payants à Copilot début 2024, dont 50 000 licences entreprises (Accenture, Goldman Sachs, etc.). L’IA est aussi intégrée aux plateformes Azure et à Visual Studio ; par exemple, GitHub Copilot fournit depuis fin 2023 un chat interactif et peut même générer du code à partir d’une maquette ou d’une demande en langage naturel :
- GitHub Copilot : extension IA pour VS Code/Visual Studio qui complète le code en temps réel et peut générer des fonctions entières à partir de commentaires
- Copilot Chat (Visual Studio) : chat d’assistance codant qui permet de poser des questions sur le code en langage naturel.
- Copilot for Microsoft 365 : assiste dans la rédaction de documents, emails, tables de données par l’IA.
- Copilot dans Teams, Outlook, Word… : fonctionnalités IA (résumés, traductions, recherche).
Dans tous ces outils, le principe est le même : l’IA aide le développeur à accélérer les tâches répétitives (rédiger du boilerplate, corriger la syntaxe, produire des tests unitaires, etc.) afin qu’il se concentre sur l’architecture ou les défis complexes. La stratégie de Microsoft est de faire de « Copilot » une attente commune pour tout logiciel professionnel.
L’IA au service des développeurs
Les bénéfices sont déjà observés en entreprise. Par exemple, GoTo Group (un géant technologique indonésien) a déployé GitHub Copilot auprès de 1 000 ingénieurs. En quelques mois, chaque développeur affirme gagner en moyenne plus de 7 heures par semaine grâce aux suggestions du Copilot.
Voici quelques usages concrets :
- Complétion et suggestions de code en temps réel : Copilot prédit les lignes suivantes pendant que le développeur tape, ou génère d’un bloc des fonctions entières à partir d’un simple commentaire. (Ex. : « Afficher une fenêtre Hello World » donne une fonction complète en C#).
- Génération de tests et de documentation : À partir d’un prototype de fonction, Copilot peut proposer des tests unitaires ou rédiger automatiquement la documentation basique du code.
- Assistance conversationnelle (Copilot Chat) : En cas de question (« Que fait cette fonction ? »), le chat d’assistance propose une explication en langage naturel et des exemples d’usage.
- Réduction des tâches répétitives : Copilot élimine les fautes de frappe et erreurs de syntaxe courantes, et aide à reformuler des requêtes complexes. Les ingénieurs notent une baisse significative des erreurs de syntaxe et apprécient l’autocomplétion contextuelle qui supprime la plupart des tâches redondantes
[*]Apprentissage et décomposition de concepts : Il peut expliquer en termes simples des concepts de programmation avancés, afin de faciliter la montée en compétence des développeurs juniors
Cette assistance se traduit directement en productivité : outre les 7 heures hebdo gagnées chez GoTo, le taux d’adoption des suggestions Copilot est élevé (environ 26–30 % d’acceptation des propositions, soit beaucoup plus que la normale). Les développeurs de GoTo rapportent qu’ils peuvent ainsi apporter « plus de valeur à leurs utilisateurs » en se concentrant sur l’innovation plutôt que sur la saisie du code courant.
Citation:
Envoyé par Hans Patuwo, directeur de l'exploitation, GoTo
Depuis juin 2024, près d'un millier d'ingénieurs de GoTo ont adopté GitHub Copilot, le déploiement complet étant prévu pour la mi-octobre 2024. L'adoption de cet assistant de codage alimenté par l'IA a permis à nos ingénieurs d'améliorer la qualité du code et d'accomplir plus en moins de temps. Les ingénieurs de GoTo ont fait état d'un gain de temps significatif de plus de sept heures par semaine en moyenne, ce qui leur permet d'innover plus rapidement et d'apporter plus de valeur à nos utilisateurs.
Implications pour les développeurs et l’avenir du travail
L’arrivée massive de l’IA dans le codage change la donne pour les équipes IT. D’après les analystes, ces assistants IA attirent les entreprises par la promesse d’équipes plus rapides et efficaces. Concrètement, les développeurs passent de plus en plus de temps à concevoir l’architecture, à valider et déboguer le code, plutôt qu’à écrire manuellement chaque ligne. Cela impose aux équipes de monter en compétences sur l’IA : « prompt engineering », revue critique des suggestions générées, et intégration continue de solutions IA.
Parmi les changements anticipés :
- Évolution des rôles : Les tâches à faible valeur ajoutée (copie de patrons, opérations basiques) sont automatisées, tandis que les développeurs travaillent sur la créativité, la gestion de projet et la vérification du code IA. Certains parlent de nouveaux métiers de « superviseur IA » ou « ingénieur prompt ».
- Montée en productivité : Les délais de projet pourraient drastiquement diminuer car l’IA accomplit les tâches routinières plus vite. Gartner note que Copilot conserve son avance chez les devs d’entreprise grâce à ces gains de rapidité
- Formation et culture : Les équipes informatiques doivent repenser leur cycle de développement : former les développeurs à ces outils, établir des bonnes pratiques (relecture humaine obligatoire, test renforcé) et adapter la CI/CD pour intégrer l’IA.
- Dynamique d’emploi : S’il existe un débat, la plupart des experts estiment que l’IA complétera plutôt que remplacera les développeurs. Les projets continueront de nécessiter des compétences humaines (spécifications, sécurité, éthique), mais les offres d’emploi pourraient évoluer vers des postes plus stratégiques.
Bénéfices, limites et enjeux
L’adoption de l’IA dans la production de code offre des bénéfices considérables : productivité augmentée, meilleure qualité de code (grâce aux suggestions de correction), innovation accélérée, et satisfaction des équipes (les tâches fastidieuses sont déléguées à l’IA). Comme le montre l’exemple de GoTo, le gain de temps et de concentration des développeurs se traduit par plus d’innovation. Microsoft rapporte d’ailleurs une forte croissance des revenus GitHub liée à l’essor du Copilot.
Pourtant, des limites et risques subsistent. La fiabilité des générateurs est variable : l’IA peut introduire des bugs subtils ou des vulnérabilités si le code suggéré n’est pas revu avec soin. Un sondage de Snyk révèle que plus de la moitié des organisations ont déjà rencontré des problèmes de sécurité liés au code généré par IA. Dépendre aveuglément de l’IA sans vérification peut aggraver ces risques : comme le note CIO Dive, certains développeurs « contournent parfois les protocoles de sécurité » pour gagner du temps.
Les enjeux sont également nombreux. GitHub Copilot a été entraîné sur du code source public – y compris des morceaux protégés par copyright. Cela a déclenché des polémiques : la Free Software Foundation a dénoncé le service, et Microsoft/GitHub font face à des poursuites pour violation de licences. En pratique, une partie du code suggéré peut provenir en droit de briques de code existantes (GitHub estime qu’environ 1 % des suggestions sont des extraits exacts de son corpus). Cette question de la propriété intellectuelle reste en suspens et doit être gérée par les entreprises (choix de licences compatibles, filtrage de suggestions, etc.). D’autres enjeux incluent la transparence (comment expliquer le code créé par l’IA ?), la responsabilité (qui est l’auteur légal du code généré ?) et l’impact social (comment assurer une adoption équitable sans creuser les inégalités de compétences).
L'avenir du développement logiciel sera-t-il fait de « vibe coding » au lieu d'une connaissance technique ?
Pour de nombreuses personnes, le codage est synonyme de précision. Il s'agit de dire à un ordinateur ce qu'il doit faire et de faire en sorte que l'ordinateur exécute ces actions de manière exacte, précise et répétée. Avec l'essor d'outils d'IA tels que ChatGPT, il est désormais possible de décrire un programme en langage naturel (français par exemple) et de demander au modèle d'IA de le traduire en code fonctionnel sans jamais comprendre comment le code fonctionne. Andrej Karpathy, ancien chercheur d'OpenAI, a récemment donné un nom à cette pratique, le « vibe coding », qui gagne du terrain dans les milieux technologiques. Cette évolution suggère-t-elle un avenir où le développement logiciel reposera davantage sur des intuitions et du « vibe coding » que sur une connaissance technique rigoureuse ?
L’illusion de la fiabilité et les risques sous-jacents
Accepter du code généré par IA sans le comprendre pose des risques majeurs. D’une part, les modèles d’IA ne garantissent pas l’exactitude absolue : ils produisent du code plausible, mais pas nécessairement correct. Des biais dans les données d’entraînement, des erreurs subtiles dans la logique ou des failles de sécurité invisibles à première vue peuvent s’y glisser. Or, si l’utilisateur ne maîtrise pas le fonctionnement du code, il lui sera difficile de détecter ces anomalies avant qu’elles ne causent des problèmes en production.
D’autre part, cette approche risque d’accentuer la dépendance des développeurs aux outils d’IA. Une génération de programmeurs pourrait émerger sans connaissance approfondie des bases de la programmation, se contentant d’assembler des fragments de code générés par IA comme des blocs de Lego. Cela pourrait affaiblir leur capacité à déboguer efficacement ou à concevoir des architectures logicielles robustes.
Au lieu d'être une question de contrôle et de précision, le « vibe coding » consiste à s'abandonner au flux.
Conclusion
En définitive, l’intégration massive de l’IA dans le développement promet de révolutionner le métier de développeur – à condition de concilier gains de productivité et vigilance. Comme le soulignent les experts, l’outil est là pour rendre les équipes plus efficaces, mais son adoption doit être encadrée : relecture systématique, tests approfondis et règles claires sur l’usage du code généré. C’est en combinant l’innovation technologique et une gouvernance responsable que les professionnels de l’informatique pourront tirer le meilleur profit de cette nouvelle ère du codage.
Sources : vidéo dans le texte, GoTo Group collabore avec Microsoft via GitHub Copilot
Et vous ?
:fleche: Peut-on réellement faire confiance au code généré par l'IA sans relecture humaine ?
:fleche: Comment intégrer efficacement l’IA dans une chaîne DevOps sans compromettre la qualité ou la sécurité ?
:fleche: L’IA est-elle capable de générer un code maintenable à long terme, ou produit-elle surtout du “jetable” ?
:fleche: Faut-il former tous les développeurs à l’ingénierie de prompt et à la relecture de code IA ?
:fleche: Va-t-on vers une disparition progressive des développeurs juniors au profit d’IA copilotes ? Comment adapter la formation des futurs ingénieurs à un monde où l’IA code une grande partie des projets ?
:fleche: Les développeurs de demain seront-ils des "relecteurs de code IA" ou des "concepteurs augmentés" ? :fleche: Quelles compétences humaines deviendront les plus valorisées face à l’automatisation du codage ?
Un juge se prononce sur l'argument de Meta concernant l'utilisation équitable des droits d'auteur
Un juge fédéral américain se prononce sur l'argument de Meta concernant l'utilisation équitable des droits d'auteur sur l'IA : "Vous anéantissez le marché pour le travail de cette personne".
Meta a fait valoir devant le tribunal que tout matériel protégé par le droit d'auteur utilisé pour entraîner ses modèles d'intelligence artificielle relevait de la doctrine de l'utilisation équitable. Mais le juge fédéral américain Vince Chhabria ne semble pas convaincu par les arguments de l'avocat de Meta. "Vous changez radicalement, on pourrait même dire que vous anéantissez le marché pour le travail de cette personne. Et vous dites que vous n'avez même pas besoin de payer une licence à cette personne... je ne comprends tout simplement pas comment cela peut être une utilisation équitable », a déclaré le juge Chhabira.
La comédienne Sarah Silverman et deux autres auteurs ont engagé des poursuites pour violation du droit d'auteur contre Meta Platforms et OpenAI en 2023, les accusant d’avoir utilisé leurs œuvres sans autorisation pour entraîner leurs modèles d’intelligence artificielle (IA) à générer du texte. Selon les plaintes, Meta et OpenAI ont obtenu les œuvres des plaignants à partir de sites illégaux de "bibliothèques fantômes", qui proposent des livres numérisés sans respecter les droits d’auteur. Les plaignants ont cité comme preuve le fait que les modèles d’IA sont capables de résumer leurs livres lorsqu’ils sont sollicités.
Meta a depuis lors fait valoir qu'une telle utilisation relevait de la doctrine de l'utilisation équitable. En vertu de la loi américaine sur le droit d'auteur, l'utilisation équitable est une doctrine qui permet d'utiliser du matériel protégé par le droit d'auteur sans l'autorisation explicite du détenteur du droit d'auteur, par exemple à des fins de critique, de reportage, d'enseignement et de recherche. Mais le juge fédéral américain Vince Chhabria ne semble pas avoir été impressionné par cette défense.
"Vous avez des entreprises qui utilisent du matériel protégé par le droit d'auteur pour créer un produit capable de produire un nombre infini de produits concurrents", a déclaré le juge Chhabria aux avocats de Meta dans un tribunal de San Francisco. "Vous changez radicalement, on pourrait même dire que vous anéantissez le marché pour le travail de cette personne, et vous dites que vous n'avez même pas besoin de lui payer une licence... Je ne comprends tout simplement pas comment on peut parler d'utilisation équitable."
L'utilisation équitable peut être utilisée comme défense positive en réponse à des plaintes pour violation du droit d'auteur, bien que plusieurs facteurs soient pris en compte pour juger si l'utilisation d'œuvres protégées par le droit d'auteur relève de l'utilisation équitable, notamment l'effet de l'utilisation de ces œuvres sur le marché (ou les marchés potentiels) dans lequel elles existent.
Meta a fait valoir que ses systèmes d'intelligence artificielle font une utilisation équitable des œuvres protégées par le droit d'auteur en les étudiant, afin de créer un nouveau contenu "transformatif". Toutefois, le juge Chhabria ne semble pas d'accord. "Il s'agit d'un cas très inhabituel dans la mesure où, bien que la copie soit effectuée dans un but hautement transformatif, il est fort probable qu'elle conduise à l'inondation des marchés des œuvres protégées par le droit d'auteur", a déclaré le juge.
L'avocat de Meta, Kannon Shanmugam, aurait alors fait valoir que les titulaires de droits d'auteur n'ont pas le droit d'être protégés contre la concurrence sur le "marché des idées". Ce à quoi le juge Chhabria a répondu : "Mais si je vole des choses sur le marché des idées afin de développer mes propres idées, c'est une violation du droit d'auteur, n'est-ce pas ?"
Cependant, le juge Chhabria semble également s'être opposé à l'avocat du plaignant, David Boies, en ce qui concerne le fait que le procès ne fournit pas suffisamment de preuves pour aborder les impacts potentiels sur le marché de la conduite alléguée de Meta. "Il semble que vous me demandiez de spéculer sur le fait que le marché des mémoires de Sarah Silverman sera affecté par les milliards de choses que Llama [le modèle d'IA de Meta] sera finalement capable de produire", a déclaré le juge Chhabria, ajoutant : "Et il ne me semble pas évident que ce soit le cas."
L'affaire continue donc. En parallèle, Meta fait également face à des allégations que l’entreprise aurait téléchargé plus de 81,7 téraoctets de livres piratés pour enrichir les modèles d’IA utilisés dans ses projets. Ces accusations émanent de plusieurs auteurs et organisations défendant les droits des écrivains. Selon eux, Meta aurait utilisé des bases de données de livres piratés, notamment celles circulant sur des plateformes comme Library Genesis (LibGen), Z-Library ou encore Bibliotik, qui sont bien connues pour héberger des millions d’ouvrages sous copyright en accès gratuit et illégal. Ces ouvrages auraient servi à enrichir LLaMA (Large Language Model Meta AI), l’un des modèles de langage les plus avancés développés par Meta.
Fait intéressant, en posant à l'IA de Meta la question : "Est-il acceptable d'utiliser des livres piratés pour entraîner l'IA ?", les réponses de la machine ont été vsurprenantes. En mars 2025, l'IA de Meta a affirmé : "L'utilisation de livres piratés pour entraîner l'IA n'est pas acceptable. En fait, il s'agit d'une violation grave des lois sur le droit d'auteur, qui peut avoir des conséquences importantes pour les auteurs et les éditeurs."
Quelques jours après, l'algorithme a changé d'avis. En réponse à la même question, il a précisé : "L'utilisation de livres piratés pour entraîner l'IA est une question complexe, et la réponse n'est pas simple. Alors que certaines entreprises, comme Meta, affirment que leur utilisation de matériel protégé par des droits d'auteur relève de l'utilisation équitable, d'autres prétendent qu'elle enfreint les lois sur les droits d'auteur." Une réponse qui confirme la position que Meta défend.
Source : Rapport du procès
Et vous ?
:fleche: Pensez-vous que ces déclarations du juge sont crédibles ou pertinentes ?
:fleche: Quel est votre avis sur le sujet ?
Voir aussi :
:fleche: Une plainte affirme que Mark Zuckerberg a autorisé l'équipe LLama de Meta à entraîner le modèle d'IA à partir d'œuvres protégées par le droit d'auteur, l'équipe a utilisé la bibliothèque controversée LibGen
:fleche: OpenAI déclare la course à l'IA « terminée » si l'entraînement sur des œuvres protégées par le droit d'auteur n'est pas considéré comme une utilisation équitable, ajoutant que les États-Unis seraient perdants
:fleche: Thomson Reuters remporte la première décision sur l'utilisation équitable du droit d'auteur en matière d'IA. Un ancien concurrent n'est pas autorisé à copier son contenu pour créer une plateforme basée sur l'IA
1 pièce(s) jointe(s)
Quelles évolutions du métier de développeur à prévoir au vu des évolutions des IA de codage comme Cursor ?
Quelles évolutions du métier de développeur à prévoir au vu des évolutions des IA
Comme Cursor ou Windsurf qui mènent désormais des projets logiciels avec un minimum d’intervention d’ingénieurs humains ?
Des rapports font état de ce que des outils tels que Cursor et Windsurf peuvent désormais mener à bien des projets logiciels avec un minimum de contribution ou de supervision de la part d'ingénieurs humains. Une enquête GitHub réalisée en 2024 a révélé que plus de 97 % des développeurs ont utilisé des outils de codage de l'IA au travail, et que 30 à 40 % des organisations encouragent activement leur adoption. Le PDG de Microsoft, Satya Nadella, a récemment déclaré que l'IA écrit désormais jusqu'à 30 % du code de l'entreprise. Le PDG de Google, Sundar Pichai, a fait écho à ce sentiment, notant que plus de 30 % du nouveau code de Google est généré par l'intelligence artificielle. Grosso modo, le tableau est de nature à soulever des questionnements sur les possibles évolutions du métier de développeur et ce, dans un contexte où l’industrie fait face à un mur : l’IA évolue et hallucine de plus en plus.
La montée en flèche des valorisations des startups spécialisées dans le codage avec des outils d'IA souligne cette dynamique. Cursor vient de lever 900 millions de dollars pour une valorisation de 9 milliards de dollars, contre 2,5 milliards de dollars au début de l'année. Entretemps, OpenAI a acquis Windsurf pour 3 milliards de dollars. Et les outils s'améliorent rapidement. Kevin Weil, directeur des produits d'OpenAI, explique lors d'une récente interview qu'il y a cinq mois à peine, le meilleur modèle de l'entreprise se classait aux alentours du millionième rang sur un critère de référence bien connu pour les codeurs compétitifs . A date, le meilleur modèle d'OpenAI, o3, se classe au 175e rang mondial des meilleurs codeurs compétitifs sur ce même test. L'amélioration rapide des performances laisse penser qu'un assistant de codage IA pourrait bientôt prendre la première place. « Les ordinateurs seront toujours meilleurs que les humains pour écrire du code », a-t-il déclaré.
Nikolay Savinov, chercheur chez Google DeepMind, souligne lors d'une récente interview que les outils de codage IA prendront bientôt en charge des fenêtres contextuelles de 10 millions de mots-clés et, à terme, de 100 millions. Avec une telle mémoire, un outil d'intelligence artificielle pourrait absorber de grandes quantités d'instructions humaines et même analyser la base de code existante d'une entreprise entière pour obtenir des conseils sur la manière de construire et d'optimiser de nouveaux systèmes. « J'imagine que nous arriverons très bientôt à des systèmes d'IA de codage surhumains qui seront totalement inégalés, le nouvel outil de tous les codeurs du monde », estiment certains acteurs de la filière.
L'industrie de l'IA a néanmoins un énorme problème : plus l'IA devient « intelligente », plus elle hallucine
Les modèles d'IA récents sont basés sur des systèmes mathématiques complexes qui acquièrent leurs compétences en analysant d'énormes quantités de données numériques. Ils ne décident pas (et ne peuvent pas décider) de ce qui est vrai et de ce qui est faux. Parfois, les modèles inventent tout simplement des choses. Lors d'un test, le taux d'hallucination des nouveaux systèmes d'IA a atteint 79 %. OpenAI est notamment profondément perplexe à ce sujet.
Un document technique publié par OpenAI révèle que ses modèles o3 et o4-mini hallucinent plus souvent que les précédents modèles axés sur le raisonnement (o1, o1-mini et o3-mini) et plus que ses modèles traditionnels qui ne sont pas dotés de la capacité de raisonnement, tels que GPT-4 et GPT-4o.
Plus inquiétant encore, OpenAI ne sait pas pourquoi cela se produit. Ce phénomène est inhabituel, car, jusqu'à présent, les nouveaux modèles ont tendance à moins halluciner à mesure que la technologie d'IA sous-jacente s'améliore. OpenAI indique que « des recherches supplémentaires sont nécessaires » pour comprendre pourquoi les hallucinations s'aggravent au fur et à mesure que les modèles de raisonnement évoluent. Voici les résultats des tests :
- o3 hallucine dans 33 % des cas sur le benchmark interne d'OpenAI appelé PersonQA ;
- o4-mini atteint un taux de 48 %, soit près d'une réponse sur deux incorrecte ;
- en comparaison, les modèles précédents comme o1 et o3-mini affichaient des taux respectifs de 16 % et 14,8 %.
L'enjeu est d'autant plus important que les entreprises continuent de consacrer des dizaines de milliards de dollars à la mise en place d'infrastructures sophistiquées pour des modèles d'IA axés sur le raisonnement de plus en plus puissants. Le problème est si répandu qu'il existe des entreprises qui se consacrent à aider les entreprises à surmonter les hallucinations. Les hallucinations réduisent considérablement la valeur de la technologie de l'IA générative.
« Ne pas traiter ces erreurs correctement élimine fondamentalement la valeur des systèmes d'IA », a déclaré Pratik Verma, cofondateur d'Okahu, une société de conseil qui aide les entreprises à mieux utiliser l'IA. Il est également important de souligner que les derniers modèles d'IA de Google et ceux de la startup chinois DeepSeek subissent le même sort que les derniers systèmes d'OpenAI, ce qui indique qu'il s'agit d'un problème à l'échelle de l'industrie.
L'hallucination est un terme élégant et pratique que l'industrie utilise pour désigner les « informations » que les grands modèles de langage (LLM) inventent de toute pièce et présentent souvent comme des faits. À en juger par la trajectoire des tout derniers modèles axés sur le raisonnement, conçus pour « réfléchir » à un problème avant d'y répondre, le problème s'aggrave, au lieu de s'améliorer. Les modèles de dernière génération hallucinent beaucoup plus.
Cette tendance inquiétante remet en cause l'hypothèse générale du secteur selon laquelle « les modèles d'IA deviendront plus puissants et plus fiables au fur et à mesure de leur puissance augmente ». Ce phénomène pourrait avoir des conséquences dangereuses pour les utilisateurs individuels et les entreprises.
Le mois dernier, un robot d'IA qui assure l'assistance technique pour Cursor, un outil en plein essor destiné aux programmeurs informatiques, a alerté plusieurs clients d'un changement dans la politique de l'entreprise. Il leur a indiqué qu'ils n'étaient plus autorisés à utiliser Cursor sur plus d'un ordinateur. Les clients se sont plaints en envoyant des messages de colère sur des forums de discussion sur Internet. Certains ont annulé leur abonnement à Cursor.
Ils sont devenus encore plus furieux lorsqu'ils ont compris ce qui s'était passé : le robot d'IA avait annoncé un changement de politique qui n'existait pas. « Nous n'avons pas de politique en la matière. Vous êtes bien sûr libre d'utiliser Cursor sur plusieurs machines. Malheureusement, il s'agit d'une réponse erronée de la part d'un bot d'assistance en IA de première ligne », a expliqué Michael Truell, PDG et cofondateur de l'entreprise, dans un billet sur Reddit.
Et vous ?
:fleche: Quelles évolutions du métier de développeur peut-on prévoir au vu des évolutions des IA et de l’hallucination des modèles ?
:fleche: Que pensez-vous du problème de l'hallucination des modèles ?
:fleche: Que pensez-vous de l'augmentation du taux d'hallucination des modèles o3 et o4-mini d'OpenAI ?
:fleche: Le taux d'hallucination grimpe à mesure que les modèles axés sur le raisonnement évoluent. Qu'en pensez-vous ?
:fleche: Certains chercheurs en IA affirment que les hallucinations ne pourront pas être éliminées entièrement. Qu'en pensez-vous ?
:fleche: Les hallucinations remettent en cause la précision et la fiabilité des outils d'IA générative. Que pensez-vous de l'utilité de ces outils d'IA ?
Voir aussi :
:fleche: OpenAI est perplexe parce que ses nouveaux modèles o3 et o4-mini affichent des taux d'hallucination nettement plus élevés que les modèles précédents, ce qui réduit la précision et la fiabilité de ces modèles
:fleche: Les outils d'IA de codage inventent des noms de paquets inexistants qui menacent la chaîne d'approvisionnement en logiciels : les attaquants publient des paquets malveillants avec ces noms sur npm ou PyPI
:fleche: Les LLM IA auront toujours des hallucinations, et nous devons nous en accommoder, car les hallucinations découlent de la structure mathématique et logique fondamentale des LLM, selon une étude