Hello tout le monde,
Je voulais juste savoir si on peut coder en python sur spark? Est-ce qu'il faut installer un module en plus genre PySPARK?
Merci beaucoup
Vanessa
Hello tout le monde,
Je voulais juste savoir si on peut coder en python sur spark? Est-ce qu'il faut installer un module en plus genre PySPARK?
Merci beaucoup
Vanessa
Bonjour,
SPARK permet l'utilisation de plusieurs langages comme Python, R, Scala et Java.
Cordialement.
Re,
Merci pour ta réponse dev_ggy . Question bète mais j'y connais pas des masses: SPARK est-il hebergé sur le même serveur que ceux d'HADOOP? car je veux stocker des données sur SPARK et je me demande comment choisir le serveur où sera hébergé SPARK du coup?!
Merci pour vos réponses
Vanessa
Bonjour,
Oui Spark est un framework de calcul distribué qui s’exécute, entre autre, sur un cluster Hadoop.
Il ne faut plus parler de serveur, ne plus raisonner en terme de serveurs, mais de cluster, car tout cela, c'est de l'informatique distribuée et massivement parallèle.je me demande comment choisir le serveur où sera hébergé SPARK du coup?!
Normalement il y a des administrateurs Hadoop dont le rôle est de déployer un cluster Hadoop et qui pourront répondre à tes questions, à moins que tout ait été fait en PAAS.
Pour finir, Spark va lire et écrire des données depuis plusieurs sources. Cela peut être des fichiers stockés dans l'HDFS, que l'on va traiter avec des RDD ou des Dataframes.
Mais les données peuvent aussi venir de SGBDR ou de bases NoSQL. Il y a de nombreux connecteurs pour cela et SparkSQL est fait pour cela.
Bonjour tous les deux,
Spark travaille avec la mémoire RAM et ne permet donc pas de stocker les données, mais uniqumement les traiter. Il est possible à travers Spark de copier les données sur le HDFS, ou dans une base de données tel que : HBase, Cassandra, Hive, ...
Il me semble que dans un environnement Hadoop il est possible d’installer Spark sur les Datanode, mais il devrait être préférable d'avoir au moins une instance sur le Edgenode.
Bien cordialement,
Bonjour,
merci pour vos réponses
Pour rebondir sur ce que vous avez dit je comprends plus ou moins. rouardg tu me dis de ne pas raisonner en terme de serveur mais pour moi un cluster=un serveur nn?! Spark SQL est un connecteur qui permet de faire le lien entre spark et un sgbdr? Sur Spark il y a des connecteurs intégrés ou il faut en plus les télécharger?
Je vous remercie encore de m'éclairer
Vaness
Justement non, un cluster est tout simplement un ensemble de serveurs, serveurs qui travaillent de concert.
Quant à Spark SQL, c'est la librairie de Spark qui permet d'inclure des requêtes SQL dans un programme Spark.
Après pour se connecter à des bases de données, on peut utiliser des drivers ODBC ou JDBC, ou alors utiliser un connecteur spécifique.
Par exemple, pour utiliser une base MongoDB depuis Spark, Mongo fournit un connecteur :
https://docs.mongodb.com/spark-connector/master/
Bien entendu, ce n'est qu'un exemple de connecteur. A chaque fois, il faut chercher sur le site de l'éditeur pour voir comment son produit s'intègre à Spark.
Ok merci pour vos réponses
Vaness
Partager