Structure de données pour gros volume de données

**white_angel_22** · 31/01/2007, 11h23

Bonjour,

Je travaille sur des gros volumes de données (de plusieurs centaines de Mo à quelques Go) qui doivent obligatoirement être chargée en mémoire (les informations sont interconnectées).
Actuellement, mon programme utilise des tables de hashage ce qui est catastrophique au niveau de la mémoire (Le programme plante au bout de quelques heures).

Je souhaiterai donc savoir s'il existe une structure de données plus légères en mémoire pour ce type de problème.
J'ai vu sur d'autres postes qu'il existait le module PDL mais si j'ai bien compris, il requiert un interpréteur à part. Je souhaiterai continuer à travailler avec l'interpréteur perl.

Merci

**pospos** · 31/01/2007, 11h29

PDL ne necessite pas d'interpreteur à part, il faut juste installer le module (on le trouve meme sur certains repository ppm).
PDL permet de manupuler des matrices (array à plusieurs dimensions), mais elles ne sont pas creuses donc ca peut ne pas repondre à tes besoins.

Les hash de perl sont plutot gourmande en RAM (environ 60o par element, sans compter la taille de l'element lui meme) mais tu peu essayer d'avoir recours à d'autres types de hash, comme par exemple les ghash http://search.cpan.org/~lbrocard/Tie-GHash/ ou les judy array (mais le binding perl de CPAN est fait de telle sorte que tu ne gagnera pas grand chose en RAM avec, dommage car c'est une super librairie)

A koi ressembles tes données?

**MarneusCalgarXP** · 31/01/2007, 13h52

Quelle est la structure de tes données ?

Il y a généralement une solution spécifique, donc il faudrait que tu donnes un exemple des données de chaque fichier que tu lis, et que tu précises si chaque fichier s'il est trié ou pas, et s'il y a des fichiers plus petits que d'autres.

PS: Si jamais tu n'arrives pas à tout stocker en mémoire, je peux te conseiller de passer par une BDD MySQL, si possible sur une machine séparée, que tu rempliras et consulteras à l'aide du module DBI et DBD::MySQL

**white_angel_22** · 31/01/2007, 14h07

alors les fichiers décrivent un réseau
un fichier commence par décrire les objets les plus globaux et se termine par les objets les plus détaillés.
chaque type d'objet possède un bloc dans le fichier avec son nom et ses caractéristiques.
mon programme lit toutes ces informations et les insère dans plusieurs hashtables (en fonction du type d'objet) en mettant en clé le nom des objets et/ou certaines propriétés
une fois chargé en mémoire, je réalise une batterie de test sur les informations contenues en mémoire
comme tous ces objets peuvent être interconnectés, je dois avoir tout les éléments en mémoire d'où mon soucis.

**white_angel_22** · 31/01/2007, 15h07

Ces informations étaient auparavant insérées dans une base MySQL mais le processus était beaucoup trop long. Par contre, la base était sur le même serveur que le script perl.

Pour quantifier la mémoire utilisée, j'ai installé la libraire Devel::Size. Savez vous si la quantité renvoyée est fiable ?

**MarneusCalgarXP** · 31/01/2007, 15h44

Je ne connais pas Devel::Size, donc je ne sais pas si c'est fiable ou pas.

La vraie question est : "as-tu rééllement besoin de stocker TOUTES les informations en mémoire à un instant T, ou peux tu trouver un critère qui te permet de regrouper les informations, et travailler sur des sous-groupes" ?

Si tu arrives à classer tes informations en sous-ensembles, tu pourras charger moins de données en mémoire simultanément !

**pospos** · 31/01/2007, 16h28

tu peux utiliser des hash avec un tie vers un DBM de ton choix: tu pourra acceder à tes données comme un hash nromal, mais elles serton stockées sur disque.
Je te conseil BerkeleyDB pour cet usage.
En configurant un bon cache tu devrait obtenir de bonnes perfs.
Si tes hash sont à plusieurs dimensiosn alors utilise putot DBM-Deep

**white_angel_22** · 31/01/2007, 18h41

merci pour votre aide
je vais réfléchir à une meilleure implémentation du programme

**white_angel_22** · 01/02/2007, 09h28

le fait de stocker mes données sur disque plutôt qu'en mémoire(tie vers un DBM), çà risque de grandement diminuer les performances non ?
remarque çà risque moins de planter

**pospos** · 01/02/2007, 11h58

oui, mais tu peux faire confiance au cache du DBM et du disque/os pour que les données les plus sollicitée soient gardée en memoire (si tu a une certaine localité dans tes accès evidemment)
a l'extreme il peut utiliser toute ta ram disponible comme cache

Structure de données pour gros volume de données

Langage Perl

Discussions similaires

Partager

Partager