[Très gros fichier] Algo pour recherche de valeurs

**djibril** · 24/04/2008, 12h55

Salut,
J'ai plusieurs questions.
Quelque est la taille limite des variables perl?
Si je crée un tableau à 100 million d'entrées, bug.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

my @test = (1..100_000_000);

2 - je cherche un algo ou une idée pour faire des recherches d'éléments dans un fichier de façon la plus optimale
J'ai un fichier de 2 Go contenant 2 colonnes (listes de numéros).
Il y en a en tout environ 150 millions de lignes.
J'ai un autre fichier qui fait plus de 25Go et je dois y récupérer environ 40 millions d'entrées.qui sont elles séparées par d'autres lignes dont j'ai pas besoin

Pour chacun des 40 millions d'entrées, je dois vérifier s'ils existent dans le fichier de 130 millions d'entrées puis faire la correspondance entre colonne 1 et 2.

vu que je peux pas mettre les 130 millions d'entrées dans un tableau pour y faire une recherche, ça devient galère.
J'ai également tester de faire 10 tableaux de 10 millions de cases, ça passe pas non plus.
Pourtant J'ai 8 Go de Ram

Donc j'ai découpe mon fichier de 130millions en plusieurs fichiers d'un million d'entrée et je jongle avec, mais c très long.

Y a t il une astuce plus simple et rapide?

**Jedai** · 24/04/2008, 19h05

Les scalaires Perl sont très gros en mémoire (mais très polyvalents), si tu veux manipuler des très gros tableaux d'entiers, il faut utiliser PDL (Perl Data Language).

Par ailleurs tes fichiers sont vraiment énormes, franchement ça ressemble beaucoup à un travail pour une base de donnée...
Si tu tiens à rester en Perl, utiliser File::Sort et File::SortedSeek semble un minimum, maintenir une sorte d'index sur le fichier trié paraît également une bonne idée.

Si tu dois faire ça souvent, repense aux bases de données, elles sont là pour ça, ou au moins mets en place une politique qui maintient les fichiers triés (et de préférence indexés).

--
Jedaï

**djibril** · 25/04/2008, 14h00

Salut jedai,

Alors, je sais que dans ce genre de cas, il serait beaucoup plus pratique d'utiliser une base de données. En plus, j'aurais pas de difficulté à en faire une avec le premier fichier contenant plus de 130 millions d'entrees.

Le problème, c'est au moment de la lecture du fichier de 25 Go de données. Je le lis ligne à ligne, normale, mais à chaque entrée intéressante (ou je dois récupérer l'information dans le fichier 1), c'est là que je dois perdre énormément du temps.
J'ai l'impression (c'est approximatif), qu'il traite environ 4 entrées par seconde, donc sachant que dans le fichier de 25 Go j'ai 38 millions d'entrée, bah ça rame et c'est problématique.

Donc je ne sais pas si avec une BD, je gagnerais beaucoup de temps même en indexant.
Mais bon, à tester

**Jedai** · 25/04/2008, 14h12

Envoyé par djibril

Le problème, c'est au moment de la lecture du fichier de 25 Go de données. Je le lis ligne à ligne, normale, mais à chaque entrée intéressante (ou je dois récupérer l'information dans le fichier 1), c'est là que je dois perdre énormément du temps.
J'ai l'impression (c'est approximatif), qu'il traite environ 4 entrées par seconde, donc sachant que dans le fichier de 25 Go j'ai 38 millions d'entrée, bah ça rame et c'est problématique.

Donc je ne sais pas si avec une BD, je gagnerais beaucoup de temps même en indexant.

Ben si c'est l'idée, tu traiteras beaucoup plus vite chaque ligne en utilisant la BD (à moins que j'ai mal compris en quoi consiste le traitement ?)

--
Jedaï

**djibril** · 25/04/2008, 14h27

Oui t'as bien compris l'idée. En fait j'ai un logiciel ici qui a besoin de faire ces manip pour créer d'autres fichiers, et ceux chaque semaine, etc.
Donc comme il rencontre des soucis avec ce fichier de 25Go qui arrête pas de grossir au fil des mois, je prends les devant.
Donc je vais créer mes BD, tests tout ça, et si c'est OK. Je soumets la modif au responsable du logiciel.
J'ai l'habitude de jouer avec mysql, je sais pas pourquoi j'y ai pas pensé avant.

**djibril** · 29/04/2008, 09h46

bon j'ai testé via une BD mais c'était pas le choix adéquat. Via perl avec un trie préalable du fichier, j'ai finalement réussi à le faire en moins d'une heure avec ouverture de deux fichiers et lecture ligne à ligne, du basique quoi.

**JakoJako** · 05/05/2008, 11h15

Bonjour,

As-tu pensé aux outils standard d'Unix genre sort, join, cut ?

**djibril** · 05/05/2008, 11h47

oui, le trie se fait préalablement via un sort à la unix

[Très gros fichier] Algo pour recherche de valeurs

Langage Perl

Discussions similaires

Partager

Partager