Problème de convergence dans un réseau de neurones

**Rhyos** · 16/08/2011, 21h14

Bonsoir à tous,

Après avoir vu une conférence sur les réseaux de neurones à l'école, j'ai essayé de m'en programmer un (perceptron multi couche) !
J'ai lu quelques papiers et cours sur ce sujet, et j'ai essayé de programmer la méthode "batch" en java. Si j'ai bien compris, le but c'est de réduire l'erreur relative quadratique en sortie du réseau de neurone. Le problème, c'est que mon réseau de neurones, après apprentissage, ne converge pas vers la bonne solution. J'ai regardé un peu au niveau de l'erreur quadratique, et en effet cette dernière converge vers 1.00000 (environ!), pour tous les tests que j'ai fait.
Avant de me regarder le code pour voir si il y a une erreur (je suis pas spécialement motivé pour ça...), j'aimerai savoir si c'est en réalité une erreur "classique ou normale", enfin d'essayer de saisir le "sens physique" caché !

Est-ce vous pensez que c'est une erreur de programmation, ou bien la convergence vers 1 (c'est pas une valeur si aberrante après tout...) est-elle normale?

Merci de vos réponses !!

**Franck Dernoncourt** · 17/08/2011, 02h01

Envoyé par Rhyos

Si j'ai bien compris, le but c'est de réduire l'erreur relative quadratique en sortie du réseau de neurone

Tout à fait !

Quelques questions :

Quelle est la structure de ton MLP ?
Que veux-tu lui faire apprendre ?
As-tu regardé http://sourceforge.net/projects/backprop1/ ?

**Rhyos** · 17/08/2011, 11h37

La structure, c'est à dire ? En gros voilà à quoi ressemble mon pmc :

Ne1
          Nc11        Nc21
Ne2                                  Ns1
          Nc12        Nc22
Ne3

Chaque neurone d'une couche est relié à tous les autres neurones de la couche précédente et de la couche suivante. Le neurone Ne3 est une constante, je l'ai mise à 0.5, un peu au pif

Pour l'apprentissage, j'essaye de lui faire apprendre une porte logique XOR (qui ne peut pas se faire apprendre par un perceptron simple si j'ai bien compris le coup des hyperplans!). Donc j'ai un set de 4 exemples {(entrée),(sortie)} qui sont {(0,0),(0)}, {(0,1),(1)}, {(1,0),(1)}, {(1,1),(0)}. Mais plus tard, j'aimerai essayer de coupler de la détection de forme, de la reconnaissance vocale pourquoi pas, enfin tout ce qui me passera par la tête ^^

Je ne suis par contre pas allé voir le site sourceforge, mais je vais aller jeter un coup d'oeil dès que j'ai le tps! Je m'étais appuyé sur le site wikipedia, le tutoriel de developpez.net et le Handbook Of Neural Network Processing, en particulier le premier chapitre de Yu Hen Hu et Jenq-Neng Hwang.

J'ai de mon côté aussi fait d'autres tests, et en fait ça ne converge pas toujours vers 1^^ apparemment (c'est super empirique comme formule), mais ca semble converger vers un truc genre 1/2 de la moyenne des normes quadratiques des vecteurs de sortie attendus.

Donc du coup, est-ce que l'algo de rétropropagation du gradient fait toujours converger l'erreur vers 0? (en dehors des minimums locaux qu'on peut rencontrer, mais je pense pas que ce soit ça). Peut-être que la limite de l'erreur peut servir pour juger si le réseau choisi est approprié au problème?

En tout cas merci pour vos réponses !

**Franck Dernoncourt** · 17/08/2011, 11h45

Envoyé par Rhyos

j'ai un set de 4 exemples {(entrée),(sortie)} qui sont {(0,0),(0)}, {(0,1),(1)}, {(1,0),(1)}, {(1,1),(0)}

Sur ton schéma, ton entrée est de dimension trois, non ?

Envoyé par Rhyos

est-ce que l'algo de rétropropagation du gradient fait toujours converger l'erreur vers 0? (en dehors des minimums locaux qu'on peut rencontrer, mais je pense pas que ce soit ça). Peut-être que la limite de l'erreur peut servir pour juger si le réseau choisi est approprié au problème?

C'est effectivement une des raisons principales !

**Rhyos** · 17/08/2011, 11h58

Il est de dimension 3, parce que j'ai rajouté un neurone "constant" comme 3ème coordonnée du vecteur d'entrée. J'avoue que je ne sais pas si cette constante est importante ou pas, je l'ai gardée depuis le perceptron simple (les réseaux des portes AND et OR en comportait une dans les modèle que j'ai vu).

Bon alors l'erreur doit venir de mon algo... Je vais essayer de faire un test à la main, et comparer avec celui de sourceforge.

**Franck Dernoncourt** · 17/08/2011, 12h03

Une façon de débugguer est de regarder les poids du réseau. Dans ton cas, tu peux même les comparer au réseau idéal (au passage, cela simplifierait la t'apprentissage de prendre qu'une seule couche cachée au lieu de deux) :

(http://library.thinkquest.org/29483/neural_index.shtml)

Problème de convergence dans un réseau de neurones

Méthodes prédictives

Discussions similaires

Partager

Partager