Bonjour tout le monde
j'ai un site qui fait une dizaine de milliers de pages statics et je cherche à savoir s'il y a moyen d'automatiser la récupération du contenu et de le stocker dans une BD.
toute la difficulté réside dans le fait que ça soit un site de 15000 pages html et aussi dans le fait que le style est aléatoire ...Bref un vrai bordel
j'ai pensé à un algorithme qui récupèrera ce qu'il y a entre les <body> or j'ai vu que dans pas mal de pages des fois il n'y pas de <body>
en suite j'ai pensé à curl mais je ne l'ai pas encore tester.
l'idée finale est de passer à un site qui sera de la forme: index.php?id=$page_id où chaque page possède un id et à chaque page on associe du contenu, truc bien fait quoi!!
théoriquement c'est simple, après chaque page parcourue nous allons créer un nouveau page_id dans la table "Page", nous récupererons le contenu et on le stockera ds la table "Content" en y indiquant l'Id de la page.
please réfléchisons tous ensemble
Partager