L'envoironnement:
Un repertoire sur le reseau contenant toute une arborescence (Fournisseur, type de doc ...) de documentation technique au format PDF.
Le projet:
Créer une table pour référencer ces documents
La table aurait un champs fournisseur,un champs path, un champs type de doc un champs résumé et un champs texte.
Hormis le champs résumé, je dois pouvoir récupérer tous les autres champs en scannant le repertoire. chaque fournisseur ayant un répertoire à son nom dans lequel se trouve un répertoire par type de doc.
La moulinette php devra :
- scanner le répertoire => recupérer le nom du fournisseur (nom du rep),
- scanner les sous repertoires => recupérer le type de doc(nom du rep),
- scanner les fichiers pdf pour en récupérer le path complet puis le texte contenu dans le pdf (lorsque cela est possible en fonction de la compression ou si il y en a)
cette table servira ensuite de base pour un moteur de recherche de doc pdf en particulier pour le champ texte pour une recherche en fulltext
Je me pose d'ailleurs la question à savoir si il ne serait pas plus simple de mettre directement le doc PDF en BLOB ?
Ma question porte sur la methode de scan récurisif de l'arborescence du repertoire de bibliothèque pour recupérer toutes ces infos ...
Je ne parle pas de l'accès sur le reseau, ça c'est résolu j'arrive à afficher un pdf du repertoire.
Avez vous déja des expériences de ce type ?
quels seraient vos conseils en la matière ?
Partager