IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Développement SQL Server Discussion :

recherche full text +pdf


Sujet :

Développement SQL Server

  1. #1
    Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2011
    Messages
    61
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Maroc

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Mars 2011
    Messages : 61
    Points : 45
    Points
    45
    Par défaut recherche full text +pdf
    Bonjour tt le monde,
    SVP je veux faire de la recherche dans un fichier PDF scanné(le fichier est comme une image contenant de texte), le fichier est stocké dans une base de donnée sql server dans un champs varbinary().
    est ce que c'est possible?? si oui comment??

  2. #2
    Modérateur

    Homme Profil pro
    Chef de projet NTIC
    Inscrit en
    Avril 2007
    Messages
    1 996
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Chef de projet NTIC
    Secteur : Service public

    Informations forums :
    Inscription : Avril 2007
    Messages : 1 996
    Points : 3 106
    Points
    3 106
    Par défaut
    Bonjour,

    je pense ne pas me tromper en disant que s'il s'agit de PDF image tu ne pourras rien en faire.

  3. #3
    Expert éminent
    Avatar de StringBuilder
    Homme Profil pro
    Chef de projets
    Inscrit en
    Février 2010
    Messages
    4 170
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Chef de projets
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2010
    Messages : 4 170
    Points : 7 422
    Points
    7 422
    Billets dans le blog
    1
    Par défaut
    Possible, presque.

    Si Microsoft respectait ce qu'ils disent dans leurs articles MSDN et que les éditeurs l'implémentaient, ça irait tout seul.

    Dans la pratique, ce n'est pas le cas (grmpf).

    Vous pouvez vous baser sur mon travail ici, en matière d'utilisation d'un OCR conjointement avec le service d'indexation de Microsoft.

    Dans la théorie, quand un document est reconnu par un filtre, il est analysé par ce dernier. Lorsqu'il trouve un document embedded, il est censé appeler le filtre qui permet de l'analyser de façon automatique, mais ce n'est pas le cas (et l'API ne le permet pas !)

    Si vous pouvez scanner au format JPG (ou BMP ou autre) alors le fruit de mon travail suffira à lui-même.

    Sinon, il faudra savoir analyser le format PDF pour en extraire l'image, avant d'utiliser mon truc.

    http://www.developpez.net/forums/d11...naissance-ocr/

    PS : A noter que le filtre d'ADOBE est censé savoir faire un scan OCR sur les images TIFF, y compris si elles sont incluses dans un PDF. C'est tout du moins ce que j'ai lu sur le site d'ADOBE.

    On trouve la dernière version du filtre ADOBE ici http://www.adobe.com/support/downloa...jsp?ftpID=4025
    Il s'installe aussi automatiquement lorsqu'on installe Adobe Reader sur le serveur.

  4. #4
    Modérateur

    Homme Profil pro
    Chef de projet NTIC
    Inscrit en
    Avril 2007
    Messages
    1 996
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Chef de projet NTIC
    Secteur : Service public

    Informations forums :
    Inscription : Avril 2007
    Messages : 1 996
    Points : 3 106
    Points
    3 106
    Par défaut
    @StringBuilder : tout à fait d'accord.
    Dans la mesure où il n'était pas question d'OCR dans la demande d'origine, là, ça me semblait compliqué...

  5. #5
    Expert éminent
    Avatar de StringBuilder
    Homme Profil pro
    Chef de projets
    Inscrit en
    Février 2010
    Messages
    4 170
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Chef de projets
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2010
    Messages : 4 170
    Points : 7 422
    Points
    7 422
    Billets dans le blog
    1
    Par défaut
    Ceci dit, la solution que je propose consiste à doter le moteur d'indexation d'une méthode OCR directement : ainsi, c'est bel et bien une image qui est stockée et indexée dans la base de données. Le texte lu par l'OCR n'est pas stocké, mais uniquement envoyé au moteur d'indexation à la place de l'image au moment de l'indexation.

    Après, il y a la solution plus bourrine (mais plus simple) qui consiste à passer le document à l'OCR et de stocker la version "texte" dans la base, mais ça duplique inutilement les données.

Discussions similaires

  1. Outil de recherche Full Text (pour doc/pdf etc.) avec PHP
    Par amalec78 dans le forum EDI, CMS, Outils, Scripts et API
    Réponses: 4
    Dernier message: 18/04/2011, 13h36
  2. Recherche Full-Text SQL Server (pdf et doc oppen office)
    Par 2berte dans le forum MS SQL Server
    Réponses: 2
    Dernier message: 21/12/2009, 21h03
  3. [recherche FULL TEXT ]
    Par viny dans le forum PostgreSQL
    Réponses: 3
    Dernier message: 20/09/2006, 17h08
  4. [Info]moteur de recherche full text en environnement j2ee
    Par ddams dans le forum API standards et tierces
    Réponses: 4
    Dernier message: 03/11/2004, 19h39
  5. Recherche FULL Text existe que dans MySql ?
    Par seb.49 dans le forum Décisions SGBD
    Réponses: 1
    Dernier message: 01/06/2004, 22h30

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo