Bonjour,
Je souhaite mettre en place, pour un projet un crawler web.
Le but de ce projet n'est pas de concurrencer google loin de là ma plutôt de référencer les pages de plusieurs sites universitaire.
Tout d'abord, vers quel langage me tourner ?
En php, pas de multi thread donc j'ai abandonné.
Java ou python ? Quel est le mieux pour vous ??
Pourquoi pas en C si j'ai accès aux sources.
En effet, il existe des web crawler open source sur le web mais je souhaite qu'ils soient modulable pour s'adapter à mes besoins.
Je précise que mes connaissances sont limités en programmation (mise à part en Php). Et donc je cherche un mix pour permettre souplesse, efficacité et pouvoir avoir l'aide de la communauté (même si je pense faire appel à un freelancer).
Le programme devra en outre permettre :
- de crawler les pages d'un site pour x niveau de profondeur
- crawler les pages internes et externes
- récupérer les balises
- indiquer les contenu n'existant plus ou bad request pour ne pas les inclure dans l'index
et toutes les fonctions de base
Merci d'avance de vos réponses.
Partager