Pourquoi l’apprentissage profond et les réseaux neuronaux sont-ils si prometteurs ?

**dourouc05** · 04/02/2016, 15h58

L’apprentissage profond et les réseaux neuronaux sont à la mode pour le moment dans le domaine de l’apprentissage automatique : Google, NVIDIA et plus récemment Microsoft proposent des bibliothèques, plus ou moins ouvertes, pour faciliter leur utilisation.

De fait, l’apprentissage profond accumule les succès ces derniers temps, y compris pour battre des humains au jeu de go — même si le meilleur joueur au monde, selon les classements actuels, Lee Sedol, estime encore pouvoir battre ce système d’intelligence artificielle. L’intérêt du jeu de go est sa complexité, malgré des règles relativement simples : il existe approximativement $10^{761}$ parties de go, contre « à peine » $10^{120}$ d’échecs (un nombre bien plus abordable actuellement).

Apprentissage d’un réseau

Cependant, de manière théorique, rien ne pouvait justifier les succès des réseaux neuronaux, qui sont l’outil principal derrière l’apprentissage profond. Depuis la première vague d’intérêt de la part du monde académique, dans les années 1990, leur étude avait montré la présence de nombreux minima locaux de l’erreur totale. L’apprentissage d’un réseau neuronal se fait en définissant la pondération des entrées de chaque neurone : changer un peu ces poids peut avoir un grand impact sur la prédiction du réseau.

Pour choisir cette pondération, tous les algorithmes testent le réseau sur des données pour lesquelles le résultat est connu : par exemple, un son et les mots auxquels il correspond ; la différence correspond à l’erreur commise par le réseau. La présence de ces minima locaux signifie que, une fois l’exécution de l’algorithme terminée, la pondération n’est pas forcément idéale : en changeant quelques valeurs, il peut être possible de diminuer drastiquement l’erreur totale. L’objectif des algorithmes d’apprentissage est d’atteindre le minimum global d’erreur.

Premières analyses et verre de spin

Jusqu’à présent, l’analyse théorique des réseaux neuronaux s’était portée sur des réseaux de quelques neurones : ces minima locaux sont alors présents en grand nombre et sont assez éloignés les uns des autres. Cette caractéristique menace alors la performance des réseaux, puisque le minimum local après apprentissage peut être très éloigné du minimum global.

Ce comportement correspond, en physique, à celui des verres de spin, « des alliages métalliques comportant un petit nombre d’impuretés magnétiques disposées au hasard dans l’alliage » : l’énergie du matériau dépend fortement de la configuration des impuretés, qui présente un grand nombre de minima locaux éloignés du minimum global. Ce verre de spin est alors coincé dans une configuration dite métastable : en réorganisant très légèrement les impuretés, l’énergie globale pourrait baisser assez fortement.

Nouvelles analyses

Le seul résultat théorique dont on disposait jusque l’année dernière était que certains réseaux neuronaux correspondent exactement aux verres de spin. Cependant, le résultat obtenu par l’équipe de Yann LeCun (directeur du laboratoire d’intelligence artificielle de Facebook) montre, au contraire, que, pour un très grand nombre de neurones, la fonction d’erreur a plutôt la forme d’un entonnoir : les minima locaux sont très rapprochés du minimum global. Plus le réseau est grand, plus ces points sont rassemblés autour du minimum global. Or, justement, l’apprentissage profond propose d’utiliser un très grand nombre de ces neurones, plusieurs millions : le résultat d’un apprentissage n’est donc jamais loin du minimum global.

Plus précisément, les algorithmes d’apprentissage convergent vers des points critiques. Les chercheurs ont montré que la majorité de ces points critiques sont en réalité des points de selle et non des minima : ils correspondent à une zone plate, avec des directions montantes et descendantes. Il est donc relativement facile de s’en échapper, en suivant la direction descendante (en termes d’erreur). Globalement, les vrais minima (qui correspondent à des cuvettes : seulement des directions qui augmentent l’erreur) sont assez rares — et proches de la meilleure valeur possible.

Physiquement, les réseaux neuronaux correspondent donc plus à des « entonnoirs de spin », avec des formes plus sympathiques : l’énergie de la configuration varie de manière abrupte, sans véritablement offrir de minimum local. Ces matériaux trouvent bien plus facilement leur configuration native (avec une énergie minimale).

Ces résultats confirment donc que des techniques comme la descente de gradient stochastique (SGD) peuvent fonctionner : la fonction d’erreur d’un réseau neuronal est à peu près convexe. Cependant, les réseaux modernes sont souvent plus complexes que ceux étudiés, afin d’éviter le surapprentissage (correspondre trop bien aux données pour l’apprentissage, mais avoir du mal à reconnaître des données qui n’en font pas partie).

Néanmoins, la chimie théorique et la physique de la matière condensée proposent d’ores et déjà un panel d’outils mathématiques pour comprendre la structure de ces entonnoirs de spin et des variations plus complexes, notamment dans le cas du pliage de protéines (elles prennent une forme qui minimise cette énergie). Cette étude propose ainsi de nouveaux mécanismes d’étude des réseaux neuronaux, mais peut-être aussi de nouveaux algorithmes d’apprentissage ou techniques pour éviter le surapprentissage.

Sources : C’est la fin d’une croyance sur les réseaux de neurones, Why does Deep Learning work? (image).
Plus de détails : The Loss Surfaces of Multilayer Networks, Why does Deep Learning work?, The Renormalization Group.

**Matthieu Vergne** · 04/02/2016, 21h37

Mais si on peut avoir *la* bonne réponse avec un gros réseau de neurone, ce n'est pas ça qui nous dira *pourquoi* cette réponse est la bonne. Et moi c'est ça qui m'intéresse. {^_^}

**Mc geek** · 04/02/2016, 23h02

De toute façon on sait déjà que la réponse est 42 ^^

**Matthieu Vergne** · 05/02/2016, 05h20

MAIS ON SAIT TOUJOURS PAS POURQUOI ! {>o<}°

**Mc geek** · 05/02/2016, 08h17

Il faudrait peut être comprendre la question pour pouvoir y répondre.

**redbullch** · 05/02/2016, 08h45

Je félicite dourouc05 pour son travail de vulgarisation d'un domaine qui n'est pas simple!

Pour ceux que ça intéresse d'en savoir plus (sur le "deep learning"), vous pouvez vous rendre ici.

Malheureusement, ce n'est pas un domaine qui se maîtrise en quelques dizaines d'heures

**AliusEquinox** · 05/02/2016, 16h59

Qui a dit qu'on cherchait à savoir pourquoi, avoir de bon résultats est déjà bien satisfaisant !

**dourouc05** · 05/02/2016, 17h18

Envoyé par AliusEquinox

Qui a dit qu'on cherchait à savoir pourquoi, avoir de bon résultats est déjà bien satisfaisant !

Ça dépend des cas

. Si tu veux réaliser un diagnostic médical, avec une grosse base de données, tu peux vouloir déterminer les tests les plus discriminants, les plus utiles (à réaliser dans tous les cas pour ce diagnostic) — si tu n'as aucune explication dans le modèle fourni par l'apprentissage, ça sera difficile. Tu peux lire, par exemple, http://orbi.ulg.ac.be/handle/2268/170309 (plutôt le chapitre 6), même si ça parle plus de forêts que d'apprentissage profond avec des réseaux neuronaux.

**LittleWhite** · 05/02/2016, 17h59

Juste par curiosité, ce sujet est liée à celui de votre thèse ?

D'ailleurs, quel est t-il ?
Par contre, j'ai beaucoup de mal à faire le lien entre les réseaux de neurones (structure d'intelligence artificielle) et la physique ou la chimie.

**odbo13** · 05/02/2016, 19h11

il me semble que le nombre donné pour le jeux d'echec ou de go est le nombre positions possible et non le numbre de parties

**Matthieu Vergne** · 05/02/2016, 21h10

Envoyé par AliusEquinox

Qui a dit qu'on cherchait à savoir pourquoi, avoir de bon résultats est déjà bien satisfaisant !

En plus du contexte qui puisse justifier qu'on ait besoin de l'explication, il y a aussi un point de vue éthique : si tu te contentes de suivre ce que te dit un algo, c'est qui le responsable ? À force de se contenter de suivre les algos, on finit par ne plus avoir besoin des raisonnements associées, qui se perdent et diminuent notre capacité à remettre en cause les résultats de ces algos. Comment forge-t-on notre esprit critique dans ces conditions ?

On pourrait en avoir plein des questions, mais ce qui fait qu'une solution est bonne n'est pas juste le fait qu'elle satisfasse des critères pré-définis. Il faut être en mesure de remettre en question ces critères en cas de soucis, car on n'est jamais à l'abri d'une boulette. Or sans explication on ne sait tout simplement pas d'où sort cette solution, donc dur de savoir ce qu'il faut remettre en cause en cas de soucis.

À la base, l'idée de faire de l'apprentissage était, si je ne me trompe pas, de compléter les systèmes experts. Ces systèmes se basent sur des ensembles de règles pour déduire les solutions, et donc sont capables de te fournir les explications détaillées (quelles règles sont appliquées pour obtenir le résultat), mais l'identification des règles est coûteuse et difficile. Sauf que depuis qu'on a fait nos avancées dans l'apprentissage, on a complètement perdu ce côté explicatif. On apprend le résultat, pas le raisonnement qui va avec. C'est de la divination automatique : on apprend les tendances pour les prédire derrière, peu importe le pourquoi de ces tendances. C'est plus fiable que de la divination traditionnelle car basé sur plus d'infos, mais c'est le même principe.

**profpaka** · 11/02/2016, 12h37

COMMENT PARLER DU RÉSEAU DES NEURONES... SANS VOIR OU DÉCRIRE VOS ARGUMENT PAR LES MATHÉMATIQUE?

MERCI !

**Garuda** · 11/02/2016, 18h21

Envoyé par LittleWhite

Par contre, j'ai beaucoup de mal à faire le lien entre les réseaux de neurones (structure d'intelligence artificielle) et la physique ou la chimie.

L'analogie entre IA et physique des matériaux est très courante
Cf algorithme du recuit !
https://fr.wikipedia.org/wiki/Recuit_simul%C3%A9

**BufferBob** · 11/02/2016, 19h45

Envoyé par Matthieu Vergne

En plus du contexte qui puisse justifier qu'on ait besoin de l'explication, il y a aussi un point de vue éthique : si tu te contentes de suivre ce que te dit un algo, c'est qui le responsable ? À force de se contenter de suivre les algos, on finit par ne plus avoir besoin des raisonnements associées, qui se perdent et diminuent notre capacité à remettre en cause les résultats de ces algos. Comment forge-t-on notre esprit critique dans ces conditions ?

étrangement quand j'ai lu ça j'ai pensé "produits financiers", va savoir pourquoi

**psykokarl** · 12/02/2016, 03h03

Envoyé par AliusEquinox

Qui a dit qu'on cherchait à savoir pourquoi, avoir de bon résultats est déjà bien satisfaisant !

Les algos basés sur les réseaux de neurones sont nécessairement lent car ils ont préalablement besoin de s'entrainer avec une certain nombre d'exemple avant de devenir efficace.
Savoir pourquoi permet de dégager une heuristique permettant par exemple de mettre au point des algos plus performant. De plus savoir pourquoi permet de ne pas repasser par les réseau de neurones pour résoudre des problèmes similaires. Savoir pourquoi permet de sélectionner les stimulus les plus pertinent, connaitre leurs influence réciproque et améliorer l'efficience du réseau...

En fait c'est un peu la même motivation qui pousse l'utilisateur d'un framework ou d'un logiciel à regarder sous le capot même quand il n'y a pas de souci ...

**ChristianRoberge** · 13/02/2016, 15h47

L'intelligence artificielle, on a parle depuis les années 50 avec la promesse de résoudre à peu près tout dans les prochaines années. À chaque décennie, il y a une nouvelle technique pleine d'espoir. Malgré des progrès substantiels, nous en sommes qu'aux balbutiements de cette science, je crois. Avec, le temps je pense que ce besoin de prédiction et de reconnaissance est beaucoup plus mythique que les gens le pense (d'où l'énorme engouement à chaque nouvelle technique!). Je travaille dans un firme qui veut prédire les prochains succès musicaux avec de tel système. Prédire l'avenir, n'est-il pas le rêve humain poursuivi ici?

**Matthieu Vergne** · 13/02/2016, 20h54

Envoyé par ChristianRoberge

Prédire l'avenir, n'est-il pas le rêve humain poursuivi ici?

C'en est un parmi tant d'autres (voyager dans l'espace, vivre éternellement, etc.). Mais ça ne sont que des rêves généraux, pas des rêves individuels : tout le monde est d'accord que ça serait chouette, mais très peu ont de vrais raisons de le vouloir. En l'occurrence, prédire l'avenir est une chose, mais si c'est juste pour savoir ce qui va t'arriver sans avoir la possibilité de le changer, au final c'est plus une malédiction qu'autre chose. Ce qui plaît derrière, c'est la possibilité de contrôler ce qui va arriver, d'où la nécessité d'expliquer les choses : si on est capable de dire pourquoi ceci va arriver, alors on peut comprendre ce qu'il faut changer pour améliorer la situation.

Mon rêve à moi il est là dedans, et c'est pour ça que je me sens si frustré avec ces réseaux neuronaux : tu peux prédire ce que tu veux, mais si tu n'est pas capable de comprendre pourquoi ça arrive, tu ne peux qu'espérer que la machine se trompe si la prédiction est démotivante. Si tu n'as aucune envie de contrôle alors ça te suffit, par exemple les banques s'en fichent de comment rendre un emprunteur rentable : si son profile est typiquement rentable on le laisse emprunter, sinon on ne le laisse pas, on ne va pas s'amuser à lui donner des conseil pour qu'il devienne rentable. Mais ce que moi j'aimerais c'est de pouvoir l'utiliser personellement, de prédire ce qui m'intéresse de façon à savoir comment le changer le cas échéant. Et ça on en est encore loin pour autant que je sache.

Pourquoi l’apprentissage profond et les réseaux neuronaux sont-ils si prometteurs ?

Intelligence artificielle

Discussions similaires

Partager

Partager