IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Big Data Discussion :

Machine Learning & big data


Sujet :

Big Data

  1. #1
    Membre habitué
    Homme Profil pro
    Inscrit en
    Octobre 2007
    Messages
    190
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Octobre 2007
    Messages : 190
    Points : 182
    Points
    182
    Par défaut Machine Learning & big data
    J'ouvre ce sujet, je bataille toujours avec spark et le ML et je suis des cours sur la statistique avec R


    http://blogs.msdn.com/b/big_data_fra...-learning.aspx

    http://blogs.msdn.com/b/big_data_fra...hine+learning/

    voila la liste des outils qui permet d'en faire dans le domaine du bigdata


    R avec Rstudio => avec bien sur Rhadoop qui permet d'interagir avec le map reduce hadoop, en plus d'interaction avec spark

    Python / Scikitlearn => je pense qu'on peut jouer avec dans un contexte spark avec pyspark

    Hadoop / Mahout => La scalabilité infinie par le Map-Reduce

    Spark, la mlib qui permet le machine learning qui font la richese de spark avec Mahout,python et R , c'est pour ca que je m'intéresse beaucoup à spark

    Scala, Les librairies Scala dédiées au ML et à l’analyse métier http://www.scalanlp.org/

    Davavisualisation: http://d3js.org/

    si y en a d'autre, vous pouvez vous y mettre votre obole. Je suis très friand d'exemple concret et pratique, la plupart des exemples que j'ai trouvé ne sont pas très parlant.
    ils fonctionnent, certes, mais on ne sait pas forcément ce que ca fait. d'ou mes progrès lent dans ce domaine, mais je vais finir par trouver le bout de la pelote de laine.

  2. #2
    Membre habitué
    Homme Profil pro
    Inscrit en
    Octobre 2007
    Messages
    190
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Octobre 2007
    Messages : 190
    Points : 182
    Points
    182
    Par défaut
    Allez je commence, puis que je suis concentré sur R, voici un petit exemple qui me parle un peu sur les arbres de decision, mais j'aime bien les trucs financier, type scoring credit et autres.
    que j'ai executé dans R studio

    Le logiciel R peut être téléchargé sur le site CRAN : http://cran.r-project.org
    Le logiciel RStudio peut être téléchargé sur le site : http://www.rstudio.com

    voici l'arbre de decision récupérer, sur le lien
    http://www.duclert.org/Aide-memoire-...e-decision.php

    Arbre de classifcation (method class)
    l
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    ibrary(rpart)
    fr <- data.frame(x = runif(1000, 0, 3), y = runif(1000, 2, 5))
    fr$z <- factor(ifelse(fr$x < 2, "a", ifelse(fr$y > 4, "b", "a")))
    fit <- rpart(z ~ x + y, fr, method = "class")
    plot(fit, uniform = TRUE, branch = 0.5, margin = 0.1)
    text(fit, all = FALSE, use.n = TRUE)
    Arbre regression (method anova)
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    library(rpart)
    fr <- data.frame(x = runif(1000, 0, 3), y = runif(1000, 2, 5))
    fr$z <- ifelse(fr$x < 2, 2 * fr$x, 3 * fr$y)
    fit <- rpart(z ~ x + y, fr, method = "anova")
    plot(fit, uniform = TRUE, branch = 0.5, margin = 0.1)
    text(fit, all = FALSE, use.n = TRUE)
    Nom : graph_th36.png
Affichages : 517
Taille : 1 011 octets

    un autre qui m'a beaucoup intéressé

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    library(rpart)
    fr <- data.frame(x = runif(1000, 0, 3), y = runif(1000, 2, 5))
    fr$z <- factor(ifelse(jitter(fr$x, amount = 0.5) < 2, "a", ifelse(jitter(fr$y, amount = 0.5) > 4, "b", "a")))
    fit <- rpart(z ~ x + y, fr, method = "class", control = rpart.control(cp = 0.00001))
    plot(fit, uniform = TRUE, branch = 0.5, margin = 0.1)
    text(fit, all = FALSE, use.n = TRUE)
    J'essaye de trouver la même approche avec les algorythme Mlib de spark avec scala
    je cherche à identifier les prédicteurs et la definition des conditions associés, ca va durer un moment.

  3. #3
    Membre habitué
    Homme Profil pro
    Inscrit en
    Octobre 2007
    Messages
    190
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Octobre 2007
    Messages : 190
    Points : 182
    Points
    182
    Par défaut
    Il y a un beau tutoriel sur mahout sur developpez.com, va falloir que je lise, des que je trouve du temps pour le ML

    http://soat.developpez.com/tutoriels...-devoxxfr2014/

    un petit youtube mahout/eclipse tout seul en anglais dsl



    le gitounet du projet

    https://github.com/RevBooyah/Static-...ender-tutorial


    un autre plus complet avec une sandbox cloudera pour l'execution mapreduce avec mahout (en anglais)

  4. #4
    Candidat au Club
    Homme Profil pro
    Data Scientist
    Inscrit en
    Septembre 2015
    Messages
    1
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Data Scientist

    Informations forums :
    Inscription : Septembre 2015
    Messages : 1
    Points : 4
    Points
    4
    Par défaut
    Hello,

    Je te link un article que j'avais écrit sur Spark et ML il y a quelques mois. J'y décris une classif supervisée avec Spark (1.4 à l'époque mais ça change rien) et MLLIB.

    Par ici : https://jcrisch.wordpress.com/2015/0...age-supervise/

    Sinon, il y a plein d'article sur des méthodes (locality sensitive hashing, réseau de neurones, etc.). https://jcrisch.wordpress.com/

    EDIT : Je vois que tu parles de scalanlp. Cette API ne fait pas seulement du ML, elle fait aussi du NLP comme son nom l'indique. C'est d'ailleurs pour ça que je l'ai utilisée (API EPIC, seule BREEZE permet de faire du ML je crois).

  5. #5
    Membre habitué
    Homme Profil pro
    Inscrit en
    Octobre 2007
    Messages
    190
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Octobre 2007
    Messages : 190
    Points : 182
    Points
    182
    Par défaut
    concernant spark, il y a quelques trucs sympa et intéressants du cedric en francais que j'ai regardé avec les kmeans dans le mode non superviser du clustering,
    le mlib reste néanmoins un sous module de spark, en plus du streaming, sql, graphx, bien que depuis la 1.4 il a étendu ses fonctionnalité avec R en plus de mahout.
    bien que j'ai rencontré une incompatibilité entre la version mahout et spark 1.4, faut que je regarde si ils ont réglés ca depuis mon jira chez la team mahout.

    http://cedric.cnam.fr/vertigo/Cours/...parkScala.html

    Travaux pratiques - Exécution d’applications. Manipulation de données numériqu

    http://cedric.cnam.fr/vertigo/Cours/...umeriques.html

    Travaux pratiques - Classification automatique avec k-means

    http://cedric.cnam.fr/vertigo/Cours/...tomatique.html

    Travaux pratiques - SVM linéaires

    http://cedric.cnam.fr/vertigo/Cours/...lineaires.html

    Travaux pratiques - Fouille de flux de données

    http://cedric.cnam.fr/vertigo/Cours/...uilleFlux.html

    Travaux pratiques - Fouille de réseaux sociaux, première partie¶

    http://cedric.cnam.fr/vertigo/Cours/...tpGraphes.html

    Travaux pratiques - Fouille de réseaux sociaux, deuxième partie

    http://cedric.cnam.fr/vertigo/Cours/...itsMondes.html

Discussions similaires

  1. Réponses: 1
    Dernier message: 09/03/2018, 15h53
  2. Big Data et machine learning, manuel du data scientist
    Par Lana.Bauer dans le forum Livres
    Réponses: 0
    Dernier message: 01/04/2015, 00h51

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo