Bonsoir chère communauté!
Tout d'abord, je me présente, parce que je suis nouveau parmis vous
Je suis Sekler et je code en python depuis peu (1mois), j'ai l'ambition de faire un robot web qui irai chercher des informations sur le web.
Pour le moment, je me débrouille par trop mal, et google m'a bien aidé.
Mais là, je bloque.
Voici mon problème:
Pour mon crawler, je souhaite utiliser un proxy, ici, pas de problème:
J'ai trouvé ceci sur le net.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8 proxy_info = { 'host' : '203.162.163.78', 'port' : 80} # On créé un handler pour le proxy: proxy_support = urllib2.ProxyHandler({"http" : "http://%(host)s:%(port)d" % proxy_info}) # On créé un opener utilisant ce handler: opener = urllib2.build_opener(proxy_support) # Puis on installe cet opener comme opener par défaut du module urllib2. urllib2.install_opener(opener)
Aussi, le site où j'essaye de me connecter requiert les cookies.
Je faisais donc ceci (avant de prendre un proxy):
Ensuite, pour ouvrir mes pages web, je faisais:
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4 # On active le support des cookies pour urllib2 cookiejar = cookielib.CookieJar() urlOpener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))
Mais le problème est que je ne sais pas comment faire pour utiliser les cookies ET le proxy.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3 request = urllib2.Request("http://www.lesiteenquestion.net") url = urlOpener.open(request)
J'ai essayé des tonnes de truc mais rien à faire
Donc voilà, si vous avez de quoi m'aider, ça serait vraiment sympa. Merci beaucoup.
Partager