Il n'y a aucune doute là-dessus, en effet. La programmation, ce n'est pas de la magie. On pourrait cependant parler de résilience, mais je doute que ce soit très pertinent ici.
Ça dépend des objectifs, mais ceux-ci sont rarement en faveur d'une telle approche. Si tu souhaites reproduire sans filtre, alors effectivement il te suffit de récolter. Tu pourras éventuellement raffiner légèrement les données pour que les calculs convergent mieux vers quelque chose d'exploitable, mais moins tu y toucheras plus tu reproduiras les comportements visibles au sein de tes données.
Le hic intervient quand tu cibles certains comportements : ta base de données vient avec du bruit, la génération des données n'est pas propre, et donc ton système n'apprendra pas que ce que tu souhaites. Potentiellement, il apprendra même davantage ce que tu ne souhaites pas plutôt que ce que tu souhaites. Microsoft par exemple a appliqué de l'apprentissage machine sur des posts Twitter pour créer un chatbot capable d'interagir "naturellement". A priori, il suffit de tout récupérer, lancer la machine, et la laisser faire sur ce qu'elle a appris. Problème, tu avais certaines données qui, sans être forcément nombreuses, ressortaient clairement du lot, et sont donc particulièrement évidentes à apprendre (l'apprentissage automatique est généralement efficace sur ce qui se discerne bien du reste, plus difficile là où la limite est floue). Résultat des courses : un chatbot sexiste et raciste ! Clairement, ce n'était pas le résultat attendu, le chatbot a donc été retiré. [Source]
L'apprentissage machine est un outil, comme tout le reste. Il ne s'agit pas de faire tourner l'apprentissage puis de laisser gambader dans la nature la machine fraîchement formée. En dehors des expérimentations pures, on cherche généralement à optimiser un process derrière. Il s'agit donc pour la machine de reproduire des comportements ciblés, pertinents pour la tâche à accomplir. Mais pour cela, il faut que la base de données d'apprentissage soit nettoyée de ce bruit, tout en s'assurant de garder une certaine diversité pour que l'apprentissage ne se focalise pas trop.
Partager