IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Algorithmes et structures de données Discussion :

Compression petits fichiers texte


Sujet :

Algorithmes et structures de données

  1. #1
    Membre à l'essai
    Profil pro
    Inscrit en
    Décembre 2004
    Messages
    20
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2004
    Messages : 20
    Points : 19
    Points
    19
    Par défaut Compression petits fichiers texte
    Bonjour,

    quelqu'un connaitrait-il un "bon" algorithme de compression de fichiers texte (en francais) courts (~ 5 Ko). Sur ce genre de petits fichiers, gzip/winzip ne compresse que d'un facteur 2 (alors que ca atteint 90% sur des gros fichiers texte). bzip2 ne fait guere mieux (55%).

    Merci

    Jerome

  2. #2
    Membre éclairé

    Inscrit en
    Juin 2004
    Messages
    1 397
    Détails du profil
    Informations forums :
    Inscription : Juin 2004
    Messages : 1 397
    Points : 763
    Points
    763
    Par défaut
    Le meilleur à ma connaissance, c'est Huffman (enfin, sa variante) utilisé entre autres dans le fameux winzip et co.
    Winrar ne fait pas mieux ?
    As-tu possibilité de fournir le fichier texte ?

    Edit: Il y a une borne théorique au taux de compression qui peut être atteint, c'est l'entropie.
    Si tu la calcules sur le fichier, tu sauras combien tu peux espérer si tout est parfait dans le meilleur des mondes ^^.

  3. #3
    Membre régulier
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    118
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 118
    Points : 111
    Points
    111
    Par défaut
    Je ne suis pas un spécialiste, donc prends ce que je dis avec des pincettes...

    En gros, c'est normal que sur des petits fichiers textes le taux de compression soit inférieur : Ces algos sont basés sur des dictionnaires. Or, en prenant un texte 10 fois plus long, on ne multiplie pas le nombre de mots par 10, mais par moins que ça. La taille du dictionnaire à coder est donc toujours plus ou moins la même. Ainsi, à l'extrême, un texte avec une seule occurrence de chaque mot ne sera pas compressible car la taille du dictionnaire sera la même que celle du fichier original. Plus chaque mot apparait souvent, plus il est facile de compresser le texte, et donc un gros texte aura un taux de compression plus élevé. (Attention, cela fonctionne avec un fichier de texte. Un fichier vidéo de la même taille ne pourra quasiment pas être compressé sans perte car les données se répètent beaucoup moins).

    Bref, tout ça pour dire que je doute qu'il existe un meilleur algo que zip pour le texte, à moins que tes fichiers soient très particuliers.

    Si c'est possible dans ton cas, essaye de compresser plusieurs fichiers texte ensemble, le texte de base étant plus grand, tu devrais avoir un meilleur taux de compression global.

  4. #4
    Membre expérimenté
    Avatar de Rakken
    Homme Profil pro
    Inscrit en
    Août 2006
    Messages
    1 257
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Août 2006
    Messages : 1 257
    Points : 1 341
    Points
    1 341
    Par défaut
    Après, tu peux tenter les autres...

    En vrac : 7-ZIP, A, ACE, ARC, ARJ, B64, BH, BZ2, BZA, CAB, CPIO, DEB, ENC, GCA, GZ, GZA, HA, JAR, LHA, LIB, LZH, MBF, MIM, PAK, PK3, RAR, RPM, TAR, TAZ, TBZ, TGZ, TZ, UUE, WAR, XXE, YZ1, Z, ZIP, ZOO

    Par contre, je ne suis effectivement pas convaicu que tu trouveras mieux. Plus ton fichier est petit, moins tu as matière à compresser.

  5. #5
    Membre à l'essai
    Profil pro
    Inscrit en
    Décembre 2004
    Messages
    20
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2004
    Messages : 20
    Points : 19
    Points
    19
    Par défaut
    Bonjour,

    merci a tous pour vos réponses

    Citation Envoyé par progfou
    Il y a une borne théorique au taux de compression qui peut être atteint, c'est l'entropie.
    Si tu la calcules sur le fichier, tu sauras combien tu peux espérer si tout est parfait dans le meilleur des mondes ^^.
    Est-ce qu'il y a un outil pour calculer ca ? Si gzip fait deja presque aussi bien que le maximum, ce n'est plus la peine que je cherche...

    Jérôme

  6. #6
    Membre éclairé

    Inscrit en
    Juin 2004
    Messages
    1 397
    Détails du profil
    Informations forums :
    Inscription : Juin 2004
    Messages : 1 397
    Points : 763
    Points
    763
    Par défaut
    C'est assez simple à calculer :
    http://perso.univ-lr.fr/pcourtel/esp...h2/page2-1.htm

    La formule est ici :

  7. #7
    Expert éminent

    Inscrit en
    Novembre 2005
    Messages
    5 145
    Détails du profil
    Informations forums :
    Inscription : Novembre 2005
    Messages : 5 145
    Points : 6 911
    Points
    6 911
    Par défaut
    On peut calculer cela dans un modele donne. Mais le choix du compresseur est en quelque sorte un choix de modele.

    Par exemple Huffmann est presque parfait dans le modele utilise, et le codage arithmetique gagne la derniere fraction de bit. Mais si tu passes a un autre algo (un ordre superieur, par dictionnaire,...) tu peux faire mieux pour autant que tes donnees s'y prete.

    Pour des petits fichiers textes, si tu implementes ton compresseur toi-meme et que tu as une bonne idee du contenu probable, une idee qui n'est pas implementee dans les compresseurs generiques est un algo a dictionnaire avec un dictionnaire precharge.

    Edit: crosspost avec progfou, il donne le maximun theorique dans le cadre du modele pour lequel Huffman est presque parfait.

  8. #8
    Expert éminent
    Avatar de PRomu@ld
    Homme Profil pro
    Ingénieur de Recherche
    Inscrit en
    Avril 2005
    Messages
    4 155
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Vienne (Poitou Charente)

    Informations professionnelles :
    Activité : Ingénieur de Recherche
    Secteur : Enseignement

    Informations forums :
    Inscription : Avril 2005
    Messages : 4 155
    Points : 6 486
    Points
    6 486
    Par défaut
    tu peux faire mieux pour autant que tes donnees s'y prete.
    C'est typiquement le cas de données redondantes, il y a pour celà la méthode RLE. Qui consiste à mettre pour des répétitions d'un certain nombre de caractères le nombre de répétition suivit du caractère répété.

    Par exemple AAAAAAAAAA sera encoré en 10A, ce qui est sans doute très proche de l'optimalité.

    quelqu'un connaitrait-il un "bon" algorithme de compression de fichiers texte (en francais) courts (~ 5 Ko). Sur ce genre de petits fichiers, gzip/winzip ne compresse que d'un facteur 2 (alors que ca atteint 90% sur des gros fichiers texte). bzip2 ne fait guere mieux (55%).
    Le problème des algos basé sur Huffman sur les petits fichiers est que l'on stocke soit la table de huffman soit l'arbre de huffman dans le fichier. Ceci entraine donc une augmentation de l'espace nécéssaire, c'est pourquoi tu obtiens un faible taux de compression sur des petits fichiers.

    Mais d'ailleurs pourquoi compresser de si petits fichiers ?

  9. #9
    Membre à l'essai
    Profil pro
    Inscrit en
    Décembre 2004
    Messages
    20
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2004
    Messages : 20
    Points : 19
    Points
    19
    Par défaut paq8g
    Bon, j'ai trouvé paq8g à l'adresse http://cs.fit.edu/~mmahoney/compression/#paq8

    auquel j'ai rajouté le dictionnaire français disponible ici: http://www.ii.uni.wroc.pl/~inikep/research/dicts/

    Résultats:

    fichier brut: 4997 octets
    winzip: 2490
    paq8g: 1544 !

    Il me reste à voir si je sais décompresser ces fichiers dans mon application. J'ai besoin de compresser ces petits fichiers parce que j'en ai plein (et je ne veux pas les concaténer parce que je ne peux lire que des petits fichiers)

    Jérôme

  10. #10
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Juillet 2004
    Messages
    26
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juillet 2004
    Messages : 26
    Points : 29
    Points
    29
    Par défaut
    Il devrait aussi être possible de compresser les fichiers tout en les gardant séparés, mais avec un dictionnaire commun. Par contre là tu es bon pour coder toi même le compresseur et le décompresseur...
    Ça marchera en particulier si tes fichiers se ressemblent (mots en commun).
    Tu peux alors atteindre la mêm compression que sil es fichiers étaient concaténés, mais en les gardant séparés

Discussions similaires

  1. Réponses: 2
    Dernier message: 14/12/2009, 11h36
  2. Compresser un fichier texte généré en PHP
    Par seb92500 dans le forum Bibliothèques et frameworks
    Réponses: 5
    Dernier message: 25/02/2008, 21h37
  3. Compression de fichier texte
    Par Victoria007 dans le forum Débuter
    Réponses: 22
    Dernier message: 11/02/2008, 22h25
  4. Parser un petit fichier texte
    Par viscere dans le forum Format d'échange (XML, JSON...)
    Réponses: 5
    Dernier message: 26/04/2006, 09h59

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo