IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

C Discussion :

Comment reconnaitre un fichier texte


Sujet :

C

  1. #1
    Nouveau Candidat au Club
    Profil pro
    Inscrit en
    Octobre 2004
    Messages
    5
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2004
    Messages : 5
    Points : 1
    Points
    1
    Par défaut Comment reconnaitre un fichier texte
    Bonjour a tous
    J'aimerais savoir s'il existe une fonction en C (ou une autre methode) qui me pemettrait de savoir si un fichier est un fichier texte ou non. Je precise que je suis sous Linux .
    Mer recherches m'ont oriente vers la fonction "file" de linux et "nombre magic" mais je n'aboutit a rien .

  2. #2
    Expert éminent sénior
    Avatar de Emmanuel Delahaye
    Profil pro
    Retraité
    Inscrit en
    Décembre 2003
    Messages
    14 512
    Détails du profil
    Informations personnelles :
    Âge : 67
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Décembre 2003
    Messages : 14 512
    Points : 20 985
    Points
    20 985
    Par défaut Re: Comment reconnaitre un fichier texte
    Citation Envoyé par Shin no Noir
    J'aimerais savoir s'il existe une fonction en C (ou une autre methode) qui me pemettrait de savoir si un fichier est un fichier texte ou non.
    En théorie, non.
    En pratique, si on fait le profil de la récurrence des caractères, on va voir un pic à 10 (LF) et à 32 (SPC') qui est plus que révélateur. Mais ça reste de l'approximation.
    Exemples :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
     
    processing /dev/forums/OP/main.c ...
    'Profil' max=304 ('*'=5) (width=60)
    [   0]        0|
    [   1]        0|
    [   2]        0|
    [   3]        0|
    [   4]        0|
    [   5]        0|
    [   6]        0|
    [   7]        0|
    [   8]        0|
    [   9]        0|
    [  10]       56|***********
    [  11]        0|
    [  12]        0|
    [  13]       56|***********
    [  14]        0|
    [  15]        0|
    [  16]        0|
    [  17]        0|
    [  18]        0|
    [  19]        0|
    [  20]        0|
    [  21]        0|
    [  22]        0|
    [  23]        0|
    [  24]        0|
    [  25]        0|
    [  26]        0|
    [  27]        0|
    [  28]        0|
    [  29]        0|
    [  30]        0|
    [  31]        0|
    [  32]      304|************************************************************
    [  33]        3|
    [  34]       14|**
    [  35]       14|**
    [  36]        0|
    [  37]        1|
    [  38]        0|
    [  39]        0|
    [  40]       17|***
    [  41]       17|***
    [  42]        6|*
    [  43]        0|
    [  44]        9|*
    [  45]       91|******************
    [  46]        9|*
    [  47]       15|***
    [  48]        4|
    [  49]        5|*
    [  50]        2|
    [  51]        0|
    [  52]        0|
    [  53]        0|
    [  54]        1|
    [  55]        1|
    [  56]        2|
    [  57]        0|
    [  58]        0|
    [  59]       12|**
    [  60]        2|
    [  61]        8|*
    [  62]        1|
    [  63]        0|
    [  64]        0|
    [  65]        1|
    [  66]        1|
    [  67]        0|
    [  68]        1|
    [  69]        2|
    [  70]        2|
    [  71]        2|
    [  72]        0|
    [  73]        1|
    [  74]        0|
    [  75]        0|
    [  76]       11|**
    [  77]        0|
    [  78]        5|*
    [  79]        3|
    [  80]        3|
    [  81]        0|
    [  82]        1|
    [  83]        0|
    [  84]        0|
    [  85]        5|*
    [  86]        0|
    [  87]        0|
    [  88]        0|
    [  89]        0|
    [  90]        0|
    [  91]        0|
    [  92]        1|
    [  93]        0|
    [  94]        0|
    [  95]        9|*
    [  96]        0|
    [  97]       10|**
    [  98]        3|
    [  99]       16|***
    [ 100]       14|**
    [ 101]       37|*******
    [ 102]       28|*****
    [ 103]        2|
    [ 104]       22|****
    [ 105]       41|********
    [ 106]        1|
    [ 107]        1|
    [ 108]       10|**
    [ 109]       11|**
    [ 110]       30|******
    [ 111]       12|**
    [ 112]       12|**
    [ 113]        0|
    [ 114]       17|***
    [ 115]       19|***
    [ 116]       12|**
    [ 117]        7|*
    [ 118]        3|
    [ 119]        2|
    [ 120]        0|
    [ 121]        0|
    [ 122]        0|
    [ 123]        6|*
    [ 124]        0|
    [ 125]        6|*
    [ 126]        0|
    [ 127]        0|
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
     
    processing /dev/forums/OP/01.exe ...
    'Profil' max=12355 ('*'=163) (width=75)
    [   0]    12355|****************************************************************
    ***********
    [   1]      498|***
    [   2]      355|**
    [   3]      498|***
    [   4]      402|**
    [   5]      260|*
    [   6]       43|
    [   7]       26|
    [   8]      240|*
    [   9]       32|
    [  10]       42|
    [  11]       19|
    [  12]       95|
    [  13]       23|
    [  14]        9|
    [  15]       89|
    [  16]      110|
    [  17]       10|
    [  18]        9|
    [  19]        8|
    [  20]       88|
    [  21]       24|
    [  22]       15|
    [  23]       11|
    [  24]       36|
    [  25]       11|
    [  26]       13|
    [  27]       20|
    [  28]       52|
    [  29]       17|
    [  30]       14|
    [  31]       17|
    [  32]      308|*
    [  33]       45|
    [  34]       18|
    [  35]        3|
    [  36]      527|***
    [  37]       97|
    [  38]       41|
    [  39]       37|
    [  40]       35|
    [  41]       22|
    [  42]       14|
    [  43]        6|
    [  44]       47|
    [  45]       28|
    [  46]      448|**
    [  47]       17|
    [  48]       49|
    [  49]       72|
    [  50]       40|
    [  51]       22|
    [  52]       84|
    [  53]       49|
    [  54]       48|
    [  55]       46|
    [  56]       20|
    [  57]       56|
    [  58]       20|
    [  59]        8|
    [  60]       21|
    [  61]       27|
    [  62]       10|
    [  63]        6|
    [  64]      424|**
    [  65]       89|
    [  66]       20|
    [  67]       90|
    [  68]      132|
    [  69]      150|
    [  70]       24|
    [  71]       19|
    [  72]       23|
    [  73]       28|
    [  74]        9|
    [  75]       10|
    [  76]       92|
    [  77]       28|
    [  78]       23|
    [  79]       44|
    [  80]       75|
    [  81]       42|
    [  82]       51|
    [  83]      136|
    [  84]       95|
    [  85]      150|
    [  86]       19|
    [  87]       18|
    [  88]       14|
    [  89]       45|
    [  90]        1|
    [  91]       46|
    [  92]       25|
    [  93]      118|
    [  94]       29|
    [  95]      749|****
    [  96]       40|
    [  97]      679|****
    [  98]      101|
    [  99]      180|*
    [ 100]      351|**
    [ 101]      377|**
    [ 102]      107|
    [ 103]       60|
    [ 104]      107|
    [ 105]      415|**
    [ 106]       10|
    [ 107]       21|
    [ 108]      183|*
    [ 109]      159|
    [ 110]      148|
    [ 111]      161|
    [ 112]      224|*
    [ 113]       74|
    [ 114]      256|*
    [ 115]      364|**
    [ 116]      735|****
    [ 117]      143|
    [ 118]       45|
    [ 119]       35|
    [ 120]      118|
    [ 121]       33|
    [ 122]       17|
    [ 123]        7|
    [ 124]       28|
    [ 125]       28|
    [ 126]        8|
    [ 127]        4|

  3. #3
    Expert éminent sénior
    Avatar de Médinoc
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Septembre 2005
    Messages
    27 381
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : France

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2005
    Messages : 27 381
    Points : 41 582
    Points
    41 582
    Par défaut
    En théorie, un fichier texte est aussi censé n'avoir aucun caractère nul. Je pense que c'est là-dessus que bcp de programmes basent leur différentiation, UltraEdit par exemple...

  4. #4
    Nouveau Candidat au Club
    Profil pro
    Inscrit en
    Octobre 2004
    Messages
    5
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2004
    Messages : 5
    Points : 1
    Points
    1
    Par défaut
    Citation Envoyé par Médinoc
    En théorie, un fichier texte est aussi censé n'avoir aucun caractère nul.
    Qu'entends-tu par caractère nul ?
    Sinon savez-vous comment fonctionne la commande file ?

  5. #5
    Membre expérimenté

    Inscrit en
    Mai 2002
    Messages
    720
    Détails du profil
    Informations forums :
    Inscription : Mai 2002
    Messages : 720
    Points : 1 594
    Points
    1 594
    Par défaut
    Salut

    GNU grep utilise également les '\0' et '\n' pour "détecter" les "type" des fichiers...

    Citation Envoyé par Shin no Noir
    Qu'entends-tu par caractère nul ?
    Ben le caractère de fin de chaine, celui dont le code ascii vaut 0 ... '\0' quoi

    Citation Envoyé par Shin no Noir
    Sinon savez-vous comment fonctionne la commande file ?
    Précisément comme c'est décrit dans sa page de man ...

  6. #6
    Nouveau Candidat au Club
    Profil pro
    Inscrit en
    Octobre 2004
    Messages
    5
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2004
    Messages : 5
    Points : 1
    Points
    1
    Par défaut
    On peut très bien avoir un autre type de fichier ne contenant pas le caractère '\0' non ?

    Précisément comme c'est décrit dans sa page de man ...
    Oui j'ai déjà lu le man , il m'indique qu'il faut utiliser la fonction 'stat' mais je ne vois pas très bien comment elle permet de détecter si le fichier est un fichier texte ou pas (je précise que j'ai déjà lu le man )

  7. #7
    Membre expérimenté

    Inscrit en
    Mai 2002
    Messages
    720
    Détails du profil
    Informations forums :
    Inscription : Mai 2002
    Messages : 720
    Points : 1 594
    Points
    1 594
    Par défaut
    Citation Envoyé par Shin no Noir
    On peut très bien avoir un autre type de fichier ne contenant pas le caractère '\0' non ?
    Oui, comme on te l'a deja dit :
    J'aimerais savoir s'il existe une fonction en C (ou une autre methode) qui me pemettrait de savoir si un fichier est un fichier texte ou non.
    En théorie, non.
    Il est juste fort probable de ne pas trouver de caracteres non imprimables dans un fichier texte...

    Citation Envoyé par Shin no Noir
    Oui j'ai déjà lu le man , il m'indique qu'il faut utiliser la fonction 'stat' mais je ne vois pas très bien comment elle permet de détecter si le fichier est un fichier texte ou pas (je précise que j'ai déjà lu le man )
    La il faut sortir le ssources de stat ... Et quand tu as pris peur, tu peux te rabattre sur qulque chose de plus concis et ou intervient également une détection binaire / texte... Moi, j'ai été gratter dans grep...

  8. #8
    Nouveau Candidat au Club
    Profil pro
    Inscrit en
    Octobre 2004
    Messages
    5
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2004
    Messages : 5
    Points : 1
    Points
    1
    Par défaut
    Moi, j'ai été gratter dans grep...
    Merçi ça m'a permis d'avancer .
    Voilà ce que j'ai réussi à faire pour le moment :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    int main(int argc, char *argv[])
    {
      char c;
      FILE *fichier;
     
     
      fichier = fopen(argv[1],"r");
     
      while ((c= getc(fichier)) != EOF)
        {
          if (c == '\0')
    	{
    	  printf("pas fichier texte\n");
    	  return 0;
    	}
          else
    	if (c =='\n')
    	  {
    	    printf("fichier texte\n");
    	    return 1;
    	  }
        }
      printf("pas fichier texte\n");
      return 0;
    }
    Ca marche pas trop mal mais il reste un petit problème:
    c'est au niveau des fichiers vidéo, ma fonction les considère comme étant des fichiers texte . Vous auriez une idée ?

  9. #9
    Expert éminent sénior

    Avatar de fearyourself
    Homme Profil pro
    Ingénieur Informaticien Senior
    Inscrit en
    Décembre 2005
    Messages
    5 121
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Ingénieur Informaticien Senior
    Secteur : Industrie

    Informations forums :
    Inscription : Décembre 2005
    Messages : 5 121
    Points : 11 877
    Points
    11 877
    Par défaut
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    if (c =='\n')
         {
           printf("fichier texte\n");
           return 1;
         }
    Personne a dit qu'un fichier binaire ne possédait pas de '\n'...
    Pourquoi est-ce que ton programme le suppose?

    Comme il a déjà été dit:

    On peut trouver dans un fichier texte des caractères non imprimable, je tire ton attention sur le fait qu'on peut écrire un '\0' dans un fichier texte (bien que cela ne serve pas à grand chose) comme on peut écrire un '\n" dans un fichier binaire.

    La seule solution si tu ne sais vraiment pas d'où vient le fichier et que tu ne peux/veux pas faire confiance à l'extension du fichier, alors il faut faire comme l'a souligné Emmanuel:

    En pratique, si on fait le profil de la récurrence des caractères, on va voir un pic à 10 (LF) et à 32 (SPC') qui est plus que révélateur. Mais ça reste de l'approximation.

  10. #10
    Expert éminent sénior
    Avatar de Emmanuel Delahaye
    Profil pro
    Retraité
    Inscrit en
    Décembre 2003
    Messages
    14 512
    Détails du profil
    Informations personnelles :
    Âge : 67
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Décembre 2003
    Messages : 14 512
    Points : 20 985
    Points
    20 985
    Par défaut
    Citation Envoyé par Shin no Noir
    Voilà ce que j'ai réussi à faire pour le moment :
    <...>
    Ca marche pas trop mal mais il reste un petit problème:
    c'est au niveau des fichiers vidéo, ma fonction les considère comme étant des fichiers texte. Vous auriez une idée ?
    Qu'est-ce que tu ne comprends pas dans le mot 'statistique' ? Je t'ai expliqué et démontré exemple à l'appui qu'il fallait travailler par profil. C'est trop dur à comprendre ou quoi ?

    Tu pourras dire tel fichier a 95% de chances d'être un fichier texte ou 90%, voire 50% d'être un fichier binaire. etc. Il n'y a pas de critères absolu. On ne peut que dégager des tendances.

  11. #11
    Nouveau Candidat au Club
    Profil pro
    Inscrit en
    Octobre 2004
    Messages
    5
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2004
    Messages : 5
    Points : 1
    Points
    1
    Par défaut
    Citation Envoyé par Emmanuel Delahaye
    C'est trop dur à comprendre ou quoi ?
    Non c'est même très simple . Mais le problème est que je dois scanner tout le disque dur à la recherche des fichiers textes donc avec ta méthode cela risque de me prendre énormément de temps .
    Je cherche une méthode rapide et efficace c'est pour cela que j'ai fais abstraction de la tienne.

  12. #12
    Membre expérimenté

    Inscrit en
    Mai 2002
    Messages
    720
    Détails du profil
    Informations forums :
    Inscription : Mai 2002
    Messages : 720
    Points : 1 594
    Points
    1 594
    Par défaut
    Autre element a prendre en consideration : la taille du fichier... Tu peux donc te lancer dans un analyse heuristique en fonction des différents paramètres expposés ici (taille, extension, contenu, localisation sur le systeme si tout est range comme sous Unix (les binaires dans bin, etc ...))...

Discussions similaires

  1. Comment imprimer un fichier text existant?
    Par AODRENN dans le forum Langage
    Réponses: 2
    Dernier message: 12/09/2005, 17h26
  2. Comment générer un fichier texte à partir d'un XML et XSL
    Par Jayceblaster dans le forum XSL/XSLT/XPATH
    Réponses: 1
    Dernier message: 24/07/2005, 22h42
  3. Réponses: 5
    Dernier message: 16/07/2005, 00h01
  4. Comment créer un fichier texte?
    Par Crazynoss dans le forum ASP
    Réponses: 2
    Dernier message: 08/05/2005, 19h53
  5. Comment écrire un fichier texte au format MS-DOS ?
    Par fredfred dans le forum Langage
    Réponses: 9
    Dernier message: 20/01/2005, 09h00

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo