Hello !
je suis en train de me faire une petite app python et il se trouve que j'ai besoin de faire des croisements entre les données que je traite, quelques calculs tous simples et des corrélations avec certaines de mes données un peu comme pourrait le faire un SIEM.
je suis un peu perdu sur l'archi que ça demande, je m'orienterais sur :
- Apache Spark : Cool pour mes calculs, mais je ne peux pas gérer des "règles de corrélation"
- Logstash : Pas mal pour les calculs, mais nécessite une sortie sur Elasticsearch qui peut gérer des règles de corrélation. Le soucis c'est que j'ai l'impression que le traitement ne se fait que sur des logs et non des JsonFiles en étant très orientée sécu
- Jupyter : pas à l'aise avec la notion des notebook, la datascience c'est pas mon coeur de métier
- Numpy/pandas : solution de secours si je n'arrive pas à gérer Spark ou ELK
je partirais donc sur une stack ELK, mais selon mes besoins j'ai peur de n'utiliser que 30% des fonctionnalités
Vous en pensez quoi ? Me suis-je fourvoyé dans ma réflexion
Merci pour votre aide !
A+
Partager