IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

C Discussion :

Performance de pthread sous linux


Sujet :

C

  1. #1
    Membre averti Avatar de uriotcea
    Homme Profil pro
    Ingénieur / physicien
    Inscrit en
    Septembre 2003
    Messages
    1 301
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur / physicien
    Secteur : Service public

    Informations forums :
    Inscription : Septembre 2003
    Messages : 1 301
    Points : 444
    Points
    444
    Par défaut Performance de pthread sous linux
    Bonjour,

    J'utilise la lib pthread pour découper un gros calcul en 2.
    Sous windows j'obtient bien avec un bipro 30 à 40% de gain alors que sous linux je suis 10% plus lent. Je n'y comprend rien, je pensais que linux était mieux pensé que windows pour la gestion des taches !
    Ou alors je m'y prend mal. Voici le code que j'utilise, il n'est pas exploitable directement mais donne une idée de la maniere don't j'ai impléménté mon calcul

    Le calcul est partagé dans la fonction "myThreadEmit" nno et nn1 valent respectivement (0->50000) & (50000->100000) pour les thread 1 & 2

    "emit_partielle_c" est la fonction que je chronometre

    Si quelqu'un voit un loup, merci d'avance

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    155
    156
    157
    158
    159
    160
    161
    162
    163
    164
    165
    166
    167
    168
    169
    170
    171
    172
    173
    174
    175
    176
    177
    178
    179
    180
    181
    182
    183
    184
    185
    186
    187
    188
    189
    190
    191
    192
    193
    194
    195
    196
    197
    198
    199
    200
    201
    202
    203
    204
    205
    206
     
    struct dataEmit {
      long nn0,nn1,iptsss;
      double *cord,*loss,
        xm,ym,xpm,ypm,em,pm,pzm,erest,wavel,radian,wsync,
        dpm,zdpm,dp2,z2,z4,dp4,z2dp2,dp3z,x2,y2,xp2,
        yp2,xxpm,yypm,xym,xpypm,xypm,x4,y4,xp4,x2xp2,
        y2yp2,x3xp,xp3x,yp3y,xmax,ymax,r2,rp2,rrrp,
        z3dp,xpym,yp4,y3yp,zm;
    } my_structEmit;
     
     
     
    void *myThreadEmit(void *arg)
    {
      double un_s_erest,gm,xx,yy,xxp,yyp,pp,ee,rr,rrp,bg;
      double sqrtxy,pzi,bz,ddp,zz,ddp2;
      double xx2,yy2,xxp2,yyp2,zz2,kwavel,un_s_c,un_s_pzm;
      int np;
     
      struct dataEmit *d;
      d = (struct dataEmit *)arg;
     
      un_s_erest=1./ d->erest;
      kwavel=d->wavel/360.;
      un_s_c=1./299792458.;
      un_s_pzm=1./ d->pzm;
     
     
      for (np=d->nn0;np<d->nn1;np++) {
        if (d->loss[np]==0) {
          gm = 1+d->cord[np*6+5]*un_s_erest;
          if (gm>1.) {
            xx = d->cord[np*6];
            yy = d->cord[np*6+2];
            xxp = d->cord[np*6+1];
            yyp = d->cord[np*6+3];
            pp = d->cord[np*6+4]/ d->radian;
            ee = d->cord[np*6+5]- d->wsync;
     
            rr = sqrt(xx*xx+yy*yy);
            if (rr!=0) rrp = (xx*xxp+yy*yyp)/rr; else rrp=0;
            d->r2+=rr*rr;
            d->rp2+=rrp*rrp;
            d->rrrp+=rr*rrp;
     
            if (fabs(xx)>d->xmax) d->xmax=fabs(xx);
            if (fabs(yy)>d->ymax) d->ymax=fabs(yy);
     
            xx-=d->xm;
            yy-=d->ym;
            xxp-=d->xpm;
            yyp-=d->ypm;
            pp-=d->pm;
            ee-=d->em;
     
            xx2=xx*xx;
            xxp2=xxp*xxp;
            yy2=yy*yy;
            yyp2=yyp*yyp;
     
            bg = sqrt(gm*gm-1);
            sqrtxy = 1./sqrt(1+xxp2+yyp2);
            pzi=bg* d->erest*un_s_c*sqrtxy;
            bz = bg*sqrtxy/gm;
            ddp=un_s_pzm*pzi-1;
            zz=-pp*bz*kwavel;
     
            d->dpm+=ddp;
            d->zm+=zz;
            d->zdpm+=ddp*zz;
            ddp2=ddp*ddp;
            zz2=zz*zz;
            d->dp2+=ddp2;
            d->z2+=zz2;
            d->z4+=zz2*zz2;
            d->dp4+=ddp2*ddp2;
            d->z2dp2+=zz2*ddp2;
            d->z3dp+=zz*zz2*ddp;
            d->dp3z+=ddp*ddp2*zz;
     
            d->x2+=xx2;
            d->y2+=yy2;
            d->xp2+=xxp2;
            d->yp2+=yyp2;
     
            d->xxpm+=xx*xxp;
            d->yypm+=yy*yyp;
            d->xym+=xx*yy;
            d->xpypm+=xxp*yyp;
            d->xypm+=xx*yyp;
            d->xpym+=xxp*yy;
     
            d->x4+=xx2*xx2;
            d->y4+=yy2*yy2;
            d->xp4+=xxp2*xxp2;
            d->yp4+=yyp2*yyp2;
            d->x2xp2+=xx2*xxp2;
            d->y2yp2+=yy2*yyp2;
            d->x3xp+=xx*xx2*xxp;
            d->xp3x+=xxp*xxp2*xx;
            d->y3yp+=yy*yy2*yyp;
            d->yp3y+=yyp*yyp2*yy;
          }
        }
      }
      pthread_exit(NULL);
      return(NULL);
    }
     
     
    void emit_partielle_c_(int *npoint,double *cord,double *loss,
      double *xm,double *ym,double *xpm,double *ypm,double *em,double *pm,double *pzm,double *erest,double *wavel,double *radian,double *wsync,
      double *dpm,double *zdpm,double *dp2,double *z2,double *z4,
      double *dp4,double *z2dp2,double *dp3z,double *x2,double *y2,double *xp2,
      double *yp2,double *xxpm,double *yypm,double *xym,double *xpypm,
      double *xypm,double *x4,double *y4,double *xp4,double *x2xp2,
      double *y2yp2,double *x3xp,double *xp3x,double *yp3y,
      double *xmax,double *ymax,double *r2,double *rp2,double *rrrp,
      double *z3dp,double *xpym,double *yp4,double *y3yp,double *zm)
    {
      long nn0,nn1;
      int i,rc,Nthr=nbr_thread_partran;
      pthread_t tid[Nthr];
      struct dataEmit d[Nthr];
     
     
      for (i=0;i<Nthr;i++) {
        nn0=i*(*npoint)/Nthr;
        nn1=(i+1)*(*npoint)/Nthr;
        if (i==Nthr-1) nn1=*npoint;
        d[i].nn0=nn0;
        d[i].nn1=nn1;
        d[i].iptsss=*npoint;
        d[i].cord=cord;
        d[i].loss=loss;
        d[i].xm=*xm;
        d[i].ym=*ym;
        d[i].xpm=*xpm;
        d[i].ypm=*ypm;
        d[i].em=*em;
        d[i].pm=*pm;
        d[i].pzm=*pzm;
        d[i].erest=*erest;
        d[i].wavel=*wavel;
        d[i].radian=*radian;
        d[i].wsync=*wsync;
        d[i].dpm=d[i].zdpm=d[i].dp2=d[i].z2=d[i].z4=d[i].dp4=d[i].z2dp2=0;
        d[i].dp3z=d[i].x2=d[i].y2=d[i].xp2=d[i].yp2=d[i].xxpm=d[i].yypm=0;
        d[i].xym=d[i].xpypm=d[i].xypm=d[i].x4=d[i].y4=d[i].xp4=d[i].x2xp2=0;
        d[i].y2yp2=d[i].x3xp=d[i].xp3x=d[i].yp3y=d[i].xmax=d[i].ymax=0;
        d[i].r2=d[i].rp2=d[i].rrrp=d[i].z3dp=d[i].xpym=d[i].yp4=d[i].y3yp=d[i].zm=0;
      }
     
      for (i=0;i<Nthr;i++) {
        rc=pthread_create(&tid[i],NULL, myThreadEmit, (void *)&d[i]);
        if (rc) {
          printf("ERROR: return code from pthread_create() is %d\n",rc);
        }
      }
     
      for(i=0; i<Nthr; i++) {
        rc = pthread_join(tid[i],NULL);
        if (rc) {
          printf("ERROR: return code from pthread_join() is %d\n",rc);
        }
      }
     
      for (i=0;i<Nthr;i++) {
        *r2=*r2+d[i].r2;
        *rp2=*rp2+d[i].rp2;
        *rrrp=*rrrp+d[i].rrrp;
        *x2=*x2+d[i].x2;
        *y2=*y2+d[i].y2;
        *xp2=*xp2+d[i].xp2;
        *yp2=*yp2+d[i].yp2;
        *xxpm=*xxpm+d[i].xxpm;
        *yypm=*yypm+d[i].yypm;
        *xym=*xym+d[i].xym;
        *xpypm=*xpypm+d[i].xpypm;
        *xypm=*xypm+d[i].xypm;
        *xpym=*xpym+d[i].xpym;
        *x4=*x4+d[i].x4;
        *y4=*y4+d[i].y4;
        *xp4=*xp4+d[i].xp4;
        *yp4=*yp4+d[i].yp4;
        *x2xp2=*x2xp2+d[i].x2xp2;
        *y2yp2=*y2yp2+d[i].y2yp2;
        *x3xp=*x3xp+d[i].x3xp;
        *xp3x=*xp3x+d[i].xp3x;
        *y3yp=*y3yp+d[i].y3yp;
        *yp3y=*yp3y+d[i].yp3y;
        *dpm=*dpm+d[i].dpm;
        *zm=*zm+d[i].zm;
        *zdpm=*zdpm+d[i].zdpm;
        *dp2=*dp2+d[i].dp2;
        *z2=*z2+d[i].z2;
        *z4=*z4+d[i].z4;
        *dp4=*dp4+d[i].dp4;
        *z2dp2=*z2dp2+d[i].z2dp2;
        *z3dp=*z3dp+d[i].z3dp;
        *dp3z=*dp3z+d[i].dp3z;
        if (d[i].xmax>*xmax) *xmax=d[i].xmax;
        if (d[i].ymax>*ymax) *ymax=d[i].ymax;
      }
    }

  2. #2
    Inactif  
    Avatar de Mac LAK
    Profil pro
    Inscrit en
    Octobre 2004
    Messages
    3 893
    Détails du profil
    Informations personnelles :
    Âge : 50
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations forums :
    Inscription : Octobre 2004
    Messages : 3 893
    Points : 4 846
    Points
    4 846
    Par défaut
    Citation Envoyé par uriotcea Voir le message
    Je n'y comprend rien, je pensais que linux était mieux pensé que windows pour la gestion des taches !
    Non, classiquement, Windows est bien meilleur avec les threads, et Linux bien meilleur avec les processus... Surtout si tes threads sont "courts", c'est à dire lancés pour une durée du même ordre de grandeur que leur temps d'initialisation.

    Il n'y a pas de "loups" dans ton code, c'est une manière classique de lancer un calcul en parallèle. Mais typiquement, sur ce coup, Windows gagne en général (à niveau d'optimisation égal bien entendu). Si tu avais fait le même code avec des "fork()", ce serait Linux qui aurait normalement "gagné".

    Tu pourrais d'ailleurs peut-être gagner encore en perfs en lançant un thread de plus que le nombre de cœurs, afin d'optimiser un peu l'accès au bus mémoire. Cela dépend de tes calculs, bien sûr, mais c'est une possibilité à regarder pour arriver à 50% de gain.
    Mac LAK.
    ___________________________________________________
    Ne prenez pas la vie trop au sérieux, de toutes façons, vous n'en sortirez pas vivant.

    Sources et composants Delphi sur mon site, L'antre du Lak.
    Pas de question technique par MP : posez-la dans un nouveau sujet, sur le forum adéquat.

    Rejoignez-nous sur : Serveur de fichiers [NAS] Le Tableau de bord projets Le groupe de travail ICMO

  3. #3
    Membre averti Avatar de uriotcea
    Homme Profil pro
    Ingénieur / physicien
    Inscrit en
    Septembre 2003
    Messages
    1 301
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur / physicien
    Secteur : Service public

    Informations forums :
    Inscription : Septembre 2003
    Messages : 1 301
    Points : 444
    Points
    444
    Par défaut
    En fait je me rend compte que je ne me suis mal exprimé. sous linux si ma boucle contenant le calcul (concequent tout de même) est inferieur à 10000, je n'ai pas de gain mais c'est même plutot plus lent. J'ai du mal à croire que le lancement d'un thread puisse etre plus long qu'une telle boucle de calcul. 10000 itérations prend quelquechose comme 20ms, j'aurais estimé le lancement de thread à quelques dizaines de us.

    Aurais-tu un example ou un lien pour faire l'équivalent avec fork() ?

  4. #4
    Membre émérite
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Octobre 2008
    Messages
    1 515
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur développement logiciels

    Informations forums :
    Inscription : Octobre 2008
    Messages : 1 515
    Points : 2 505
    Points
    2 505
    Par défaut
    Ca n'ira pas plus vite avec un fork(). Mais si tu y tiens, ce n'est guère plus compliqué, sauf qu'il faut mettre tes données en mémoire partagée.

    Ton noyau a bien le support du SMP ?

  5. #5
    Membre averti Avatar de uriotcea
    Homme Profil pro
    Ingénieur / physicien
    Inscrit en
    Septembre 2003
    Messages
    1 301
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur / physicien
    Secteur : Service public

    Informations forums :
    Inscription : Septembre 2003
    Messages : 1 301
    Points : 444
    Points
    444
    Par défaut
    Je viens d'essayer avec fork(), c'est effectivement assez aisé à mettre en place mais cette fois le calcul avec 2 threads/fork est 3 à 4 plus lent.
    C'est bien pire que pthread. Je suis vraiment surpris de ces résultats

  6. #6
    Inactif  
    Avatar de Mac LAK
    Profil pro
    Inscrit en
    Octobre 2004
    Messages
    3 893
    Détails du profil
    Informations personnelles :
    Âge : 50
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations forums :
    Inscription : Octobre 2004
    Messages : 3 893
    Points : 4 846
    Points
    4 846
    Par défaut
    Citation Envoyé par uriotcea Voir le message
    En fait je me rend compte que je ne me suis mal exprimé. sous linux si ma boucle contenant le calcul (concequent tout de même) est inferieur à 10000, je n'ai pas de gain mais c'est même plutot plus lent.
    Étrange, tout ça... Je rejoins matafan, ton kernel doit avoir été compilé de façon assez étrange.

    Tapes "uname -a" sur un terminal, stp, et donnes-nous le résultat. Bien sûr, si ton Linux tourne en machine virtuelle, il est par contre tout à fait normal qu'il soit bien plus lent que la machine hôte !

    Citation Envoyé par uriotcea Voir le message
    J'ai du mal à croire que le lancement d'un thread puisse etre plus long qu'une telle boucle de calcul. 10000 itérations prend quelquechose comme 20ms, j'aurais estimé le lancement de thread à quelques dizaines de us.
    Grosse erreur : si tu veux des threads réellement performants, il vaut mieux les créer suspendus en début de programme, puis les alimenter / lancer / suspendre quand tu en as besoin. Et ceci même sous Windows, d'ailleurs.

    Citation Envoyé par uriotcea Voir le message
    Je viens d'essayer avec fork(), c'est effectivement assez aisé à mettre en place mais cette fois le calcul avec 2 threads/fork est 3 à 4 plus lent.
    C'est bien pire que pthread. Je suis vraiment surpris de ces résultats
    En fait, tout dépend du temps de calcul : Linux gère mieux les processus, mais il faut quand même que plusieurs conditions soient réunies :
    • Le temps de calcul doit être significatif, plusieurs minutes au moins. Or, toi, tu es proche de la durée du quantum de temps par défaut...
    • Les processus lancés doivent être "autonomes" et ne pas dépendre d'un moyen "lent" (sockets, fichiers, pipes) pour accéder à leurs données.
    • Ils ne doivent pas être préemptés par n'importe quoi, notamment d'inutile comme la couche graphique.


    Mais encore une fois, si les performances s'effondrent autant, ça fait penser à un problème de noyau...
    Mac LAK.
    ___________________________________________________
    Ne prenez pas la vie trop au sérieux, de toutes façons, vous n'en sortirez pas vivant.

    Sources et composants Delphi sur mon site, L'antre du Lak.
    Pas de question technique par MP : posez-la dans un nouveau sujet, sur le forum adéquat.

    Rejoignez-nous sur : Serveur de fichiers [NAS] Le Tableau de bord projets Le groupe de travail ICMO

Discussions similaires

  1. Probleme de performances en C sous Linux
    Par comtention dans le forum Débuter
    Réponses: 10
    Dernier message: 27/02/2010, 17h03
  2. Réponses: 0
    Dernier message: 24/08/2009, 07h38
  3. OCR performant sous linux
    Par floopi51 dans le forum Traitement d'images
    Réponses: 2
    Dernier message: 26/01/2009, 15h07
  4. Réponses: 14
    Dernier message: 09/08/2004, 13h42
  5. Réponses: 4
    Dernier message: 27/08/2003, 21h34

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo