Bonjour a tous,
Je m'interroge sur l’industrialisation du data mining avec Python avec des bibliothèques de type sitick-learn(data mining) ou panda(times series). Je travail beaucoup avec R et j'aime python mais ces langages semblent limités pour les très gros volumétries de données à l'exception peut être de quelles que librairie sous R étudiés pour la génomie.
Je voulais savoir si d'autres personnes étaient dans le même cas que moi, à s'interroger sur les contraintes de volumétrie. Les bases sur la quel nous travaillons étant très importantes et ceci de façon croissante. Le type d’algorithme et la gestion de la mémoire de ce type de bibliothèque qui mets l'ensemble des données en cach pour des raisons de performance ne permet pas de gérer de gros volume de données de lors du Terra ou bien plus.
Les seuls solutions viable que j'ai trouver c'est mahout, un module de hadoop, mais on sort du cadre de Python.
Je voulais savoir si mon analyse est bonne, si je me trompe sur les librairies python et que était l'avis d'autre et des retour d'expérience si possible.
Partager