IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

API standards et tierces Java Discussion :

extraction des données du PDF vers MySql


Sujet :

API standards et tierces Java

  1. #1
    Futur Membre du Club
    Homme Profil pro
    Développeur Java
    Inscrit en
    Mars 2011
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Développeur Java
    Secteur : Conseil

    Informations forums :
    Inscription : Mars 2011
    Messages : 12
    Points : 9
    Points
    9
    Par défaut extraction des données du PDF vers MySql
    Bonjour tout le monde,
    je suis nouveau sur ce forum et ça me fair plaisir de vous rejoindre.

    Bon,
    dans le cadre de mon stage, on m'a demandé de creer une application en java qui consiste à extraire des données à partir des CV sous format PDF vers une base de données MYSQL . sachant que ce pdf (CV) et sous forme d'un tableau.
    est-ce possible ?
    si oui , comment puis-je procéder ?

    merci d'avance

  2. #2
    ced
    ced est déconnecté
    Rédacteur/Modérateur

    Avatar de ced
    Homme Profil pro
    Gestion de bases de données techniques
    Inscrit en
    Avril 2002
    Messages
    6 040
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 49
    Localisation : France, Loiret (Centre)

    Informations professionnelles :
    Activité : Gestion de bases de données techniques
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Avril 2002
    Messages : 6 040
    Points : 23 795
    Points
    23 795
    Par défaut
    Bonjour,

    L'extraction de données d'un PDF ne peut pas se faire directement sous MySQL.
    Il va falloir que tu passes par un langage de programmation capable d'extraire ces infos d'un PDF (dans un premier temps), puis les insérer (dans un second temps) dans une base MySQL.
    Du coup, il faut poser la question sur les forums adaptés au langage que tu cibles.

    ced

  3. #3
    Futur Membre du Club
    Homme Profil pro
    Développeur Java
    Inscrit en
    Mars 2011
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Développeur Java
    Secteur : Conseil

    Informations forums :
    Inscription : Mars 2011
    Messages : 12
    Points : 9
    Points
    9
    Par défaut
    Merci Cédric pour votre réponse ;

    le langage avec lequel je dois faire cette extraction est le java ,
    la question est comment ? existent-ils des APIs capables de faire ça ?
    iText et PDFbox peuvent-ils faire ça ?

    cordialement.

  4. #4
    Expert éminent sénior
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Points : 48 804
    Points
    48 804
    Par défaut
    si ce pdf est un pdf "standard" et généré par une de vos application, il vaut mieux attaquer la source d'information directement. Si ce PDF est généré par vos candidats à partir d'un template commun, pour faire court, vous allez souffrir.


    Le format PDF n'est pas une format structuré, c'est un format qui reflète un impression. Basiquement, des éléments de texte disposés à des coordonnées x,y. Il est en général possible d'extraire facilement le contenu d'un PDF, mais il est très difficile de relier les différents morceaux de contenu de manière logique entre eux. Les headers, footers etc sont mélangés au texte de la page. Les tableaux peuvent être retourné sous forme de colonne , ligne ou autres variante plus ou moins joyeuse suivant la manière dont le pdf a été généré. Si le tableau a des cellules à plusieurs lignes, difficile de savoir à tous les coups si les ce sont des lignes liées entre elles ou des cellules l'une au dessus de l'autre.


    Bref, opération compliquée et risquée.

    Et les tableaux sur plusieurs page, c'est encore pire

  5. #5
    Futur Membre du Club
    Homme Profil pro
    Développeur Java
    Inscrit en
    Mars 2011
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Développeur Java
    Secteur : Conseil

    Informations forums :
    Inscription : Mars 2011
    Messages : 12
    Points : 9
    Points
    9
    Par défaut
    merci David pour votre réponse

    "Les tableaux peuvent être retourné sous forme de colonne , ligne ou autres variante plus ou moins joyeuse suivant la manière dont le pdf a été généré"

    mes PDFs sont justement sous forme de table,

    la question :

    comment mettre en œuvre cela ? ( techniquement parlant)

Discussions similaires

  1. [AC-2002] Outil d'extraction des données de acces vers outlook
    Par Marc31 dans le forum VBA Access
    Réponses: 1
    Dernier message: 23/10/2011, 17h13
  2. Extraction des données du PDF vers MySql : code Java
    Par Colonel-Essaid dans le forum Général Java
    Réponses: 1
    Dernier message: 08/04/2011, 14h37
  3. Importer des données d'Excel vers MySql
    Par philippe72 dans le forum Débuter
    Réponses: 5
    Dernier message: 30/06/2009, 12h40
  4. envoyer des données de flash vers mysql
    Par maxland dans le forum Flash
    Réponses: 3
    Dernier message: 22/01/2009, 15h01
  5. transposer des donnés de orale vers mysql
    Par enamorada dans le forum Oracle
    Réponses: 9
    Dernier message: 04/04/2008, 08h55

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo