IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

XML/XSL et SOAP Discussion :

[outils] conversion pdf xml


Sujet :

XML/XSL et SOAP

  1. #1
    Candidat au Club
    Inscrit en
    Janvier 2011
    Messages
    10
    Détails du profil
    Informations forums :
    Inscription : Janvier 2011
    Messages : 10
    Points : 2
    Points
    2
    Par défaut [outils] conversion pdf xml
    Bonjour,
    j'ai un probleme concernant la conversion de theses sous format pdf ou doc au format xml

    exemple: en entrer j'ai un fichier pdf ou doc

    en sortie j'aurai

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    <doc>
    <intitulé>..................</intitulé>
    <resumer>...............</resumer>
    <sommaire>................</sommaire>
    <chapitre1>...................</chapitre1>
    .....
    ...
    ..
    etc
    <annexe> ...........</annexe>
    <bibliographie>...........</bibliographie>
    </doc>
    et s'il y a un moyen de le faire manuellement, merci de m'expliquer comment

    aidez moi s'il vous plait

  2. #2
    Membre émérite
    Avatar de polymorphisme
    Homme Profil pro
    Publishing
    Inscrit en
    Octobre 2009
    Messages
    1 460
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Publishing
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Octobre 2009
    Messages : 1 460
    Points : 2 372
    Points
    2 372
    Par défaut
    Bonjour tchiko35,

    quel outils utilise tu pour faire ta conversion de pdf vers xml ?

  3. #3
    Candidat au Club
    Inscrit en
    Janvier 2011
    Messages
    10
    Détails du profil
    Informations forums :
    Inscription : Janvier 2011
    Messages : 10
    Points : 2
    Points
    2
    Par défaut
    justement je cherche des outils qui peuvent m'aider a avoir en sorti un fichier xml a partir d'un fichier pdf

  4. #4
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 567
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 567
    Points : 21 631
    Points
    21 631
    Par défaut
    Les PDF n'ont pas de sémantique, donc ça déjà c'est mort.

    Les .doc peuvent avoir en théorie, mais les seuls .doc sémantiquement stylisés que je croise sont ceux faits par des gens qui partagent ma passion (et le gain de temps acquis) pour la sémantique. De l'ordre de 0.1% des .doc que je vois passer.
    Donc a priori c'est mort aussi.

  5. #5
    Candidat au Club
    Inscrit en
    Janvier 2011
    Messages
    10
    Détails du profil
    Informations forums :
    Inscription : Janvier 2011
    Messages : 10
    Points : 2
    Points
    2
    Par défaut
    merci de m'avoir repondu
    donc quelle serait la solution à ton avis ?

  6. #6
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 567
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 567
    Points : 21 631
    Points
    21 631
    Par défaut
    J'en sais rien.

    Tu nous a plus ou moins dit que tu cherches un outils qui transforme des documents non sémantiques en un document XML sémantique.

    Aussi longtemps que les ordinateurs n'auront pas appris à nous comprendre à peu près autant que nous nous comprenons nous-mêmes, ça ne sera pas possible.

    Donc, que veux-tu ?

  7. #7
    Candidat au Club
    Inscrit en
    Janvier 2011
    Messages
    10
    Détails du profil
    Informations forums :
    Inscription : Janvier 2011
    Messages : 10
    Points : 2
    Points
    2
    Par défaut
    Ce que je cherche, c'est un moyen open source qui permet de parcourir un document pdf ou doc pour:
    1. fragmenter le document en plusieurs parties
    2. extraire des informations textuelles



    Merci de m'aider si tu as une idée

  8. #8
    Membre expérimenté
    Profil pro
    Inscrit en
    Septembre 2006
    Messages
    1 466
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2006
    Messages : 1 466
    Points : 1 610
    Points
    1 610
    Par défaut
    Tu peux lire les bouts de texte d'un PDF avec iText : http://itextpdf.com/examples/iia.php?id=275 .
    Mais comme répété ici plusieurs fois, tu auras bcp de mal à reformer la structure et les liens sémantiques entre chaque bouts de phrase.

  9. #9
    Candidat au Club
    Inscrit en
    Janvier 2011
    Messages
    10
    Détails du profil
    Informations forums :
    Inscription : Janvier 2011
    Messages : 10
    Points : 2
    Points
    2
    Par défaut
    merci de ta reponse

    mais j'ai des erreurs

    je comprend pas

    import part1.chapter01.HelloWorld;

    aide moi stp

  10. #10
    Membre expérimenté
    Profil pro
    Inscrit en
    Septembre 2006
    Messages
    1 466
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2006
    Messages : 1 466
    Points : 1 610
    Points
    1 610
    Par défaut
    hum, si tu n'as pas les bases en Java c'est pas gagné .
    On importe une classe qui est utilisé dans la classe courante.
    Les dépendances sont expliqués en début d'article.
    Bon courage.

  11. #11
    Candidat au Club
    Inscrit en
    Janvier 2011
    Messages
    10
    Détails du profil
    Informations forums :
    Inscription : Janvier 2011
    Messages : 10
    Points : 2
    Points
    2
    Par défaut
    oui je c que je dois heriter de cette classe mé elle est ou ?

  12. #12
    Candidat au Club
    Inscrit en
    Janvier 2011
    Messages
    10
    Détails du profil
    Informations forums :
    Inscription : Janvier 2011
    Messages : 10
    Points : 2
    Points
    2
    Par défaut
    stp
    pourquoi lors de l'extraction de pdf dans text 3 il met le texte en <<>>

    ya pas un moyen d'enlever <<>>

    merci et dsl pr le derangement

Discussions similaires

  1. Outil conversion HTML -> PDF
    Par Finality dans le forum ASP.NET
    Réponses: 0
    Dernier message: 28/03/2014, 17h56
  2. parser fichier XML après conversion Pdf
    Par trevezel dans le forum XSL/XSLT/XPATH
    Réponses: 3
    Dernier message: 01/03/2011, 19h59
  3. Automatisation conversion pdf
    Par licorne dans le forum Général JavaScript
    Réponses: 6
    Dernier message: 30/09/2005, 18h00
  4. [JSP][Conversion][Pdf]
    Par med.ba dans le forum Servlets/JSP
    Réponses: 3
    Dernier message: 06/04/2005, 15h41
  5. Conversion .pdf .doc
    Par knecmotet dans le forum Windows
    Réponses: 2
    Dernier message: 07/03/2005, 16h29

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo