[script] Trouver des fichiers contenant un numéro de téléphone

**SysHic** · 08/06/2015, 23h34

Bonjour

S'il vous plait,J'ai besoin d'aide je suis perdu. j'ai eu un exercice à faire (parmi plusieur exercice) par un recruteur.

l'exercice dit :

Considérant que nous avons 50 000 fichiers HTML contenus dans une arborescence Unix, sous un répertoire s’appelant ‘/website’. Nous avons deux (2) jours pour obtenir la liste des chemins de chaque fichier HTML contenant des numéros de téléphone, selon les deux (2) formats suivants: (999) 999-9999 and 999-999-9999. Écrivez l’algorithme qui permettra de fournir la liste.

Deja je comprend pas bien l'exercice, demande un algorithme qui founir la liste des chemins de chaque fichier html dans le repertoire website.

Ce que je suis entraine de faire moi c'est d'accèder au repertoir website et parcourir tout les fichier et voir si il y'a un numero sous format 999 999-9999 , si oui j'affiche le nom d fichier. mais cela aussi ne marche pas :s aide svp

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
 
#!/bin/sh
#je suis actuellement en desktop
 
for fichier in ./website
do
 
  grep -e "[0-9][0-9][0-9] [0-9][0-9][0-9]-[0-9][0-9][0-9][0-9]" $fichier
  if[ $? -eq 0]
  then
 
         echo $fichier>>resultat.txt
 
  fi
done

Cordialement

**N_BaH** · 09/06/2015, 01h07

Bonjour,

Envoyé par SysHic

Deja je comprend pas bien l'exercice, demande un algorithme qui founir la liste des chemins de chaque fichier html dans le repertoire website.

Envoyé par recruteur

Écrivez l’algorithme qui permettra de fournir la liste.

c'est pas super bien formulé, mais moi, je comprends : «Écrivez l'algorithme qui permettra [d'écrire le programme, qui, lui,] permettra de fournir la liste.»

tu peux pas contacter le recruteur pour lui demander quelques éclaircissements ?

**disedorgue** · 09/06/2015, 02h24

Bonjour,

Dans /website, tu as une arborescence que tu dois parcourir pour chercher dans les fichiers HTML s'il y a des n° de téléphone dans l'un des 2 formats cités et si c'est le cas, alors afficher le nom du fichier (donc arborescence comprise).

Ici, un simple grep avec les options qui vont bien devrait suffire, ou un find + grep lié par un -exec (pour les versions de grep qui ne supporte pas le récursif).

EDIT: Non, find + grep car le grep tout seul ne permettra pas de filtrer juste les fichiers HTML des autres fichiers.

**SysHic** · 09/06/2015, 10h49

Merci pour vos réponse.

voile ce que j'ai fais comme script :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
#!/bin/bash
 
 
for fichier in ./website/*
do
 
  grep -l "[0-9][0-9][0-9] [0-9][0-9][0-9]-[0-9][0-9][0-9][0-9]" $fichier >> Resultat.txt
 
done

Il marche bien : je parcours les fichiers dans le répertoire website et je test si les fichiers contient le numéro sous format 999 999-9999 , si oui je stocke le chemin du fichier dans le fichier resultat.txt( a la fin dans le resultat.txt j'aurai tous les liens des fichiers.

Mais : 1) je sais pas coment precise que les fichier .html dans mon script ,
2) je ne sais pas comment ajoute le test sur le 2eme formule (999) 999-9999, et ce que j'ajoute un autre grep comme ca :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

  grep -l "([0-9][0-9][0-9]) [0-9][0-9][0-9]-[0-9][0-9][0-9][0-9]" $fichier >> Resultat.txt

Merci

Cordialement

**Flodelarab** · 09/06/2015, 13h16

Bonjour

poser des questions, c'est bien. Lire les réponses, c'est mieux. (find + grep)

Non seulement ton script ne repère pas les html, mais il ne reste qu'à la racine de l'arborescence.

Pour l'expression régulière, il n'y a pas de OU. | ou \|
Bizarre.

J'imagine que ce sont les numéros de téléphones qui doivent être récupérés. Pas les lignes ou les noms de fichiers. Intéresse-toi à l'option -o de grep.

**SysHic** · 09/06/2015, 13h20

Merci pour réponse.

Mais juste pour votre information , Avant que je demande de l'aide ici , j 'ai tout testé OK. find + grep aussi mais ne marche pas .

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

find ./website -name *.html -type f |   grep -l "[0-9][0-9][0-9] [0-9][0-9][0-9]-[0-9][0-9][0-9][0-9]" $fichier >> Resultat.txt

et j'ai meme mis :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

find ./website -name *.html -type f |   grep -l "[0-9][0-9][0-9] [0-9][0-9][0-9]-[0-9][0-9][0-9][0-9] \| "[0-9]([0-9][0-9][0-9]) [0-9][0-9][0-9]-[0-9][0-9][0-9][0-9]"" $fichier >> Resultat.txt

Masi ne marche pas , et d'ailleurs c'est pour cela je suis la ,

**al1_24** · 09/06/2015, 13h43

ça ne marche pas n'est pas un message d'erreur.

Pose toi les bonnes questions :

D'où tes lignes de commandes tireraient-elles la valeur de la variable $fichier ?
Que retourne la commande find ?
As-tu testé ton expression régulière sur un seul fichier pour vérifer qu'elle trouve les bonnes lignes ?

**Flodelarab** · 09/06/2015, 14h34

Intéresse-toi à xargs (à placer entre le find et le grep).

**BufferBob** · 09/06/2015, 16h11

sa march pa sa march pa...

je suis d'accord avec Flodelarab, non content d'arriver à utiliser les commandes pour trouver son bonheur il va aussi être question d'optimiser un peu le traitement sur 50000 fichiers, xargs à la rescousse :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

find -L /website/ -type f -name "*.html" -print0 | xargs -0 -n100 -P$(grep -c "^processor" /proc/cpuinfo) grep -lP "(\([0-9]{3}\) |[0-9]{3}-)[0-9]{3}-[0-9]{4}"

l'option -L parcequ'on sait jamais, des fois qu'il y ait des répertoires sous forme de liens symboliques par exemple
l'option -type f parcequ'on ne sait jamais, des fois que quelqu'un ait eu la bonne idée de créer "repertoire.html/"
l'option -print0 parceque le nom du fichier peut éventuellement comporter des caractères spéciaux, à minima des espaces
et pour xargs pareil, l'option -0 pour récupérer la sortie en print0 du find
l'option -n100 pour spécifier qu'on traite les fichiers par lots de 100
l'option -P pour paralléliser la recherche sur $(grep -c "^processor" /proc/cpuinfo) threads, c'est à dire autant que c'est judicieux finalement
et sur le dernier grep, l'option -l pour afficher le nom du fichier dès la première occurrence trouvée et arrêter le traitement du fichier en cours
l'option -P pour utiliser les regex pcre... à vérifier mais je suis pas certain que les quantifieurs {x,y} fonctionnent avec les regex POSIX ou étendues...

**zipe31** · 09/06/2015, 20h34

Salut,

Envoyé par disedorgue

EDIT: Non, find + grep car le grep tout seul ne permettra pas de filtrer juste les fichiers HTML des autres fichiers.

Comme nous sommes dans GNU/Linux, si l'option globstar du shell est activée, je ne vois ce qui empêcherait un grep -r -l 'motif' /chemin/**/.*html de faire son boulot

**disedorgue** · 09/06/2015, 21h45

C'est vrai que l'on peut le faire comme tu le montres (la typo en moins

), mais pour 50.000 fichiers, cela peut poser certains problèmes...

Pour s'amuser, on pourrait aussi le faire en pure Built-in ...

**kimojo** · 11/06/2015, 15h38

Envoyé par zipe31

Salut,

Comme nous sommes dans GNU/Linux, si l'option globstar du shell est activée, je ne vois ce qui empêcherait un grep -r -l 'motif' /chemin/**/.*html de faire son boulot

le -r n'est pas nécessaire si ? vu que tu mets déja **/*.html

J'aurais dit ça :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 
egrep -l "\([0-9][0-9][0-9]\) [0-9][0-9][0-9]-[0-9][0-9][0-9][0-9]|[0-9][0-9][0-9]-[0-9][0-9][0-9]-[0-9][0-9][0-9][0-9]" ./website/**/*.html

[script] Trouver des fichiers contenant un numéro de téléphone

Shell et commandes GNU

Discussions similaires

Partager

Partager