IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

Convertir un fichier .DOC ou .DOCX en PDF et en texte brut


Sujet :

Langage PHP

  1. #1
    Pgs
    Pgs est déconnecté
    Membre régulier
    Profil pro
    Inscrit en
    Avril 2004
    Messages
    482
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 482
    Points : 100
    Points
    100
    Par défaut Convertir un fichier .DOC ou .DOCX en PDF et en texte brut
    Bonjour,
    Je souhaite convertir en php des fichier .DOC (et éventuellement .DOCX) en fichiers PDF et en fichiers texte brut.
    Pouvez-vous me conseiller ?
    Serait-ce mieux d'enregistrer au préalable les fichiers .DOC et .DOCX en XML ?
    Merci
    Philippe

  2. #2
    Membre expert
    Avatar de cavo789
    Homme Profil pro
    Développeur Web
    Inscrit en
    Mai 2004
    Messages
    1 785
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Mai 2004
    Messages : 1 785
    Points : 3 048
    Points
    3 048
    Par défaut
    Bonjour

    Intéresse-toi à Pandoc (https://pandoc.org/) qui permet de convertir de multiples formats vers ... de multiples formats.

    DOCX -> Markdown / PDF / HTML / TXT / ... pas de souci pour lui.

    Quelques exemples : https://pandoc.org/demos.html

    Bonne journée.

  3. #3
    Pgs
    Pgs est déconnecté
    Membre régulier
    Profil pro
    Inscrit en
    Avril 2004
    Messages
    482
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 482
    Points : 100
    Points
    100
    Par défaut
    Merci pour ces infos

  4. #4
    Pgs
    Pgs est déconnecté
    Membre régulier
    Profil pro
    Inscrit en
    Avril 2004
    Messages
    482
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 482
    Points : 100
    Points
    100
    Par défaut
    Bonjour,
    Je constate que les fichiers .doc sont directement lisibles en file_get_contents et que le caractère ETX (ASCII 3) ou EOT (ASCII 4) me permet de trouver la fin du texte brut.
    Mais dans certains fichiers .doc testés, il y a des ETX et des EOT qui ne correspondent pas au coeur du texte brut du document, et je souhaite les neutraliser.
    Quelqu'un ayant été confronté à ce problème a-t-il trouvé la solution pour récupérer la bonne zone de texte brut ?
    Merci

Discussions similaires

  1. Réponses: 3
    Dernier message: 27/04/2017, 17h21
  2. Réponses: 1
    Dernier message: 03/02/2016, 23h01
  3. Exporter des données dans un fichier .doc (ou docx)
    Par Redg9 dans le forum Windows Forms
    Réponses: 5
    Dernier message: 29/04/2009, 10h51
  4. afficher le contenu d'un fichier.doc ou .txt ou .pdf
    Par abendhieb dans le forum Interfaces Graphiques
    Réponses: 2
    Dernier message: 24/10/2008, 13h28
  5. Convertir un fichier ps en un fichier pdf ou doc
    Par angsthase dans le forum Autres Logiciels
    Réponses: 2
    Dernier message: 24/10/2005, 18h32

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo