IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

scrapy et base de données


Sujet :

Python

  1. #1
    Futur Membre du Club
    Profil pro
    Inscrit en
    Février 2013
    Messages
    7
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2013
    Messages : 7
    Points : 5
    Points
    5
    Par défaut scrapy et base de données
    bonjour,
    je suis sur un projet scrapy et j'aimerais mettre dans le start_urls une liste d'urls présentes dans une base de données
    est ce que vous pouvez m'aider ?
    d'avance merci

    j'ai essayé ca mais ca ne fonctionne pas elle prendre en compte uniquement la dernière url dans la base :-(

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
     
    class Crawl2Spider(BaseSpider):
        name = "crawl2"
        import MySQLdb
        db = MySQLdb.connect(host="localhost", user="root", passwd="", db="crawler_engine", charset = 'utf8', use_unicode = False)
        cur = db.cursor()
        cur2 = db.cursor()
        cur.execute("select url from urls where num_crawl=1")
        vers = cur.fetchall()
        for i in range(cur.rowcount):
            #liste des urls que nous allons parcourir qui est le resultat de la requete precedente
            start_urls = vers[i]
            def parse(self, response):
                hxs = HtmlXPathSelector(response)
                item = DmozItem()
                item['link'] = hxs.select('//div/ul/li/a/@href').extract()
                cursor = self.db.cursor()
                for j in range(len(item['link'])):
                    cursor = self.db.cursor()
                    sql = "insert into urls(url, domain, num_crawl) values ('%s','%s','%s')" % (item['link'][j],'test', 1)
                    cursor.execute(sql)
                    self.db.commit()
                return item

  2. #2
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 435
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 435
    Points : 37 020
    Points
    37 020
    Par défaut
    Salut,

    Si vous avez écrit ce code, pourquoi ne pas lui faire confiance?

    cur.rowcount est le nombre d'URLS retourne par cur.execute("select url from urls where num_crawl=1").
    S'il n'y en a qu'une, c'est que le "select" n'en trouve pas d'autres.

    A partir de la, vous avez un utilitaire d'Admin pour voir ce que contient la table urls et la console Python pour tester, voir ce que retourne la requête en dehors du programme. Si c'est cohérent, le problème est "ailleurs". Un ailleurs connu de vous seul.

    - W

  3. #3
    Futur Membre du Club
    Profil pro
    Inscrit en
    Février 2013
    Messages
    7
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2013
    Messages : 7
    Points : 5
    Points
    5
    Par défaut
    Bonjour
    Merci pour votre retour
    C'est bien moi qui est réalisé ce code et malheureusement il ne fonctionne pas.
    J'ai réalisé un print vers[i] et je constate bien que le dev parcours l'ensemble des urls que retourne le select.
    Cependant il doit y avoir une subtilité dans l'utilisation du start_urls qui fait que ca ne fonctionne pas et inscrit en base uniquement les urls de la seconde url et jamais la première.
    Merci

  4. #4
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 435
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 435
    Points : 37 020
    Points
    37 020
    Par défaut
    Citation Envoyé par d4v1d6942 Voir le message
    Cependant il doit y avoir une subtilité dans l'utilisation du start_urls qui fait que ca ne fonctionne pas et inscrit en base uniquement les urls de la seconde url et jamais la première.
    Et si vous montriez ce que le code fait de start_urls?
    - W

  5. #5
    Futur Membre du Club
    Profil pro
    Inscrit en
    Février 2013
    Messages
    7
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2013
    Messages : 7
    Points : 5
    Points
    5
    Par défaut
    Merci pour votre retour
    en base j'ai 2 lignes avec 2 urls :
    1. http://www.python.org/
    2. http://scrapy.org/
    J'ai réalisé un print vers[i] sous start_urls
    et j'ai mis en pièce jointe le résultat de scrapy wrawl crawl2
    on constat que vers a bien eu les 2 urls mais le résultat en base est qu'il m'a inséré que les urls de la seconde url soit scrapy.org
    j'ai le sentiment que le self.db.commit ne fonctionne pas la première fois
    Merci
    a bientot
    Images attachées Images attachées  

  6. #6
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 435
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 435
    Points : 37 020
    Points
    37 020
    Par défaut
    Salut,
    Si vous ne montrez pas le code qui fait ça, pas la peine de demander d'essayer de comprendre ce qu'il ne fait pas.
    - W

Discussions similaires

  1. aide SCrapy et base de donne
    Par fezzani dans le forum Réseau/Web
    Réponses: 0
    Dernier message: 01/09/2014, 12h48
  2. connexion base de donné
    Par saidi dans le forum MFC
    Réponses: 3
    Dernier message: 07/08/2002, 23h22
  3. [Concept] Stabilité d'une base de donnée
    Par lassmust dans le forum Décisions SGBD
    Réponses: 3
    Dernier message: 03/07/2002, 17h16
  4. Bases de données
    Par dev dans le forum C++Builder
    Réponses: 4
    Dernier message: 01/07/2002, 23h55
  5. associer une base de données(access) a un dbgrid
    Par ange1708 dans le forum MFC
    Réponses: 3
    Dernier message: 11/06/2002, 13h18

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo