Réseaux bayésiens : comment marche l'inférence dans la toolbox BNT ?

**toma_BN** · 21/11/2012, 19h12

Bonjour à tous

J'ai une question théorique au sujet de la toolbox BNT (Bayes Net Toolbox) pour MATLAB.

Admettons que j'ai un jeu de données comprenant 1000 observations et 5 variables représenté par un tableau à 5 lignes et 1000 colonnes.
On suppose que chaque variable est discrète et peut prendre 2 états (1 ou 2).
Le réseau bayésien est simple : chacune des 4 premières variables pointe vers la cinquième.

Si je souhaite calculer la distribution de probabilité "prior" de ma variable n°5 (appelons-la V5), je peux la calculer ainsi : (nombre d'observations telles que V5 = 1)/1000 et (nombre d'observations telles que V5 = 2)/1000.

Je peux aussi utiliser l'inférence de la toolbox BNT avec le code ci-dessous (une fois le réseau bnet créé et l'apprentissage des paramètres effectué):

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
engine = jtree_inf_engine(bnet);
evidence = cell(1,5);
[engine, loglik] = enter_evidence(engine, evidence);
marg = marginal_nodes(engine, 5);
marg.T

Ma question est : pourquoi les deux méthodes ne donnent-elles pas le même résultat ?
J'ai l'impression que passer par un arbre de jonction "modifie" les probabilités observées.
J'ai fait le test avec d'autres réseaux notamment celui, très simple, qui se trouve à cette adresse http://bnt.googlecode.com/svn/trunk/docs/usage.html j'ai toujours une différence entre les deux méthodes.
Il doit sans doute y avoir une explication logique (je ne m'y connais pas en arbres de jonction et je ne maîtrise pas tous les algorithmes internes à la toolbox BNT).
Ma question subsidiaire : quelle méthode utiliser pour calculer mes probabilités "prior"?

Merci pour vos éclaircissements!

Toma_BN

**toma_BN** · 10/02/2015, 10h45

Je repasse sur le forum alors j'en profite pour faire un update sur mon message qui commence à dater :-)

Au final, j'ai une possible explication "avec les mains" de la différence entre les deux méthodes: lorsque je calcule les probabilités "prior" de manière très simple (i.e. (nombre de 1)/1000 ; (nombre de 2)/1000), je considère chaque variable individuellement et complètement dé-corrélée du réseau bayésien. Or avec un arbre de jonction, la structure du réseau est utilisée dans le calcul. Autrement dit, dans la seconde méthode, on calcule la probabilité marginale sachant le réseau. Je pense donc que la 1ere méthode est la plus appropriée car elle ne se base sur rien d'autre que la fréquence d'observation des valeurs d'une variable dans la base de données initiale. Autrement dit, la 1ere méthode est adéquate si l'on souhaite calculer une probabilité a priori sans a priori ;-)

Réseaux bayésiens : comment marche l'inférence dans la toolbox BNT ?

MATLAB

Discussions similaires

Partager

Partager