Peut-on convertir un fichier XML généré sous Word en XML normal (afin de pouvoir récupérer la position spatiale gauche, haut, droite, bas du texte) ???
Peut-on convertir un fichier XML généré sous Word en XML normal (afin de pouvoir récupérer la position spatiale gauche, haut, droite, bas du texte) ???
Bonjour,
qu'appelles-tu XML "normal" ? Le format XML généré par Word est du XML tout ce qu'il y a de plus conventionnel (pour une fois Microsoft a respecté les standards !).
Pour de la conversion XML => XML, le langage idéal est XSLT.
Voici 1 extrait d'un fichier XML :
Or dans le XML (WordML) généré par 1 OCR (OmniPage14 Standard), je ne retrouve pas ces positions (gauche, haut, droit, bas).
Code : Sélectionner tout - Visualiser dans une fenêtre à part <wd l="1416" t="2818" r="2534" b="3014">ARTICLE</wd>
J'ai bien trouvé ceci, mais ça n'est pas suffisant.
Code : Sélectionner tout - Visualiser dans une fenêtre à part <w:ind w:first-line="0" w:left="108" w:right="0"/>
C'est la raison pour laquelle je demandais s'il était possible de "convertir" ou transformer ce XML pour Word en XML "normal".
Hélas non : le principe d'une transformation XML est de prendre un fichier XML d'un certain format et de le transformer en un autre format, également XML. Si le format du fichier d'entrée (sortie de l'OCR) ne comprend pas les données souhaitées, ce n'est pas la transformation qui va te les inventer. La seule possibilité qui te reste est de voir s'il existe dans Omnipage un autre format XML (autre que celui de Word) comprenant ces informations.
Si ça peut t'aider je sais que le moteur OCR de la société IRIS a une sortie XML reprennant les coordonnées des lettres ou des mots.
Vous avez un bloqueur de publicités installé.
Le Club Developpez.com n'affiche que des publicités IT, discrètes et non intrusives.
Afin que nous puissions continuer à vous fournir gratuitement du contenu de qualité, merci de nous soutenir en désactivant votre bloqueur de publicités sur Developpez.com.
Partager