IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Calcul scientifique Python Discussion :

Data mining et gros volume de données


Sujet :

Calcul scientifique Python

  1. #1
    Membre éprouvé

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Points : 1 155
    Points
    1 155
    Billets dans le blog
    2
    Par défaut Data mining et gros volume de données
    Bonjour a tous,

    Je m'interroge sur l’industrialisation du data mining avec Python avec des bibliothèques de type sitick-learn(data mining) ou panda(times series). Je travail beaucoup avec R et j'aime python mais ces langages semblent limités pour les très gros volumétries de données à l'exception peut être de quelles que librairie sous R étudiés pour la génomie.

    Je voulais savoir si d'autres personnes étaient dans le même cas que moi, à s'interroger sur les contraintes de volumétrie. Les bases sur la quel nous travaillons étant très importantes et ceci de façon croissante. Le type d’algorithme et la gestion de la mémoire de ce type de bibliothèque qui mets l'ensemble des données en cach pour des raisons de performance ne permet pas de gérer de gros volume de données de lors du Terra ou bien plus.

    Les seuls solutions viable que j'ai trouver c'est mahout, un module de hadoop, mais on sort du cadre de Python.

    Je voulais savoir si mon analyse est bonne, si je me trompe sur les librairies python et que était l'avis d'autre et des retour d'expérience si possible.

  2. #2
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 439
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 439
    Points : 37 030
    Points
    37 030
    Par défaut
    Salut,

    Pour analyser rapidement des Terabytes de données, il faut construire une "infrastructure" de type "grid" dotée d'un minimum d'outils pour y faire des "search".

    "rapidement" => répartir les données sur le plus grand nombre de (disques x serveurs x liens réseaux) que permet votre budget.
    Collez des disques de 1To à votre PC: le nombre de GB/s. pouvant être traité sera si petit que le langage de programmation n'a pas grande importance.

    Il faut du logiciel pour rendre l'infrastructure "utilisable". Ce logiciel pourrait être écrit tout ou partie en Python, mais l'important sera les services qui seront "offerts".

    Un programme "basique" dans ce contexte sera de pouvoir utiliser ces "services" en tant que "client" - soumettre des "search" - et d'en récupérer les résultats. Python, JavaScript, ... sont des langages qui conviennent assez bien pour exprimer les requêtes à traiter par cette "infrastructure".
    Mais il ne faut pas trop mélanger le langage de programmation des requêtes (le côté client) et celui utilisé pour la réalisation des services (qui n'a pas grande importance pour l'utilisateur).

    - W

  3. #3
    Membre habitué
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Décembre 2010
    Messages
    140
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur développement logiciels

    Informations forums :
    Inscription : Décembre 2010
    Messages : 140
    Points : 182
    Points
    182
    Par défaut
    Bonjour,

    pour ma part, je pense que comme le décrit wiztricks, l'analyse génomique sur plusieurs terra requiert plusieurs machines physiques.

    Concernant l'architecture d'un programme d'analyse des données la problématique est également un problème de coût. Je pense que développer un programme en C ou C++ prend plus de temps qu'un programme en python.

    La réflexion est donc peut être d'avantage sur les moyens à disposition que sur un choix technologique pur et dur.

    Pour ma part, le bon compromis est de faire la partie calculatoire sous forme de librairies C ou C++ qui sont rapides et permettent d'importants gains de temps de calcul et donc permettent de traiter d'avantage de données avec les même machines. Ces librairies peuvent tout à fait être interfacées en python pour la manipulation des résultats, l'agrégation des données, la construction de rapports ou de statistiques... . Ensuite, s'il y a une partie client, elle peut plutôt facilement être conçue en HTML CSS Javascript qui sont des technologies souples et relativement aisées à mettre en oeuvre.

    Cordialement

Discussions similaires

  1. Réponses: 2
    Dernier message: 03/12/2007, 13h48
  2. Réponses: 3
    Dernier message: 11/05/2007, 14h47
  3. [Recherche texte sur gros volume de données]
    Par tesla dans le forum Algorithmes et structures de données
    Réponses: 8
    Dernier message: 21/02/2007, 14h43
  4. Structure de données pour gros volume de données
    Par white_angel_22 dans le forum Langage
    Réponses: 9
    Dernier message: 01/02/2007, 12h58
  5. Gérer le gros volume de données
    Par berceker united dans le forum Décisions SGBD
    Réponses: 2
    Dernier message: 21/07/2006, 20h29

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo