Pandas AI serait le futur de l'analyse des données, d'après Fareed Khan, Data Scientist

Pandas AI est une bibliothèque écrite pour le langage Python qui intègre des capacités d'IA générative à Pandas, l'outil d'analyse et de manipulation de données qui propose des structures de données ainsi que des opérations de manipulation de tableaux numériques et de séries temporelles. Pandas AI rend ainsi les cadres de données conversationnels. Pour Farred Khan, Data Scientist, Pandas AI est un outil aux possibilités infinies et ne représente rien de moins que le futur de l'analyse des données.

Nom : pandas-ai.png
Affichages : 80399
Taille : 312,8 Ko

Imaginez que vous puissiez parler à vos données comme s'il s'agissait de votre meilleur ami. C'est ce que fait Pandas AI ! Cette bibliothèque Python possède des capacités d'intelligence artificielle générative qui peuvent transformer vos cadres de données en agents conversationnels. Finies les heures interminables passées à regarder des lignes et des colonnes.

Mais ne vous inquiétez pas, Pandas AI n'est pas là pour remplacer votre Pandas bien-aimé. Il est là pour l'améliorer ! Avec Pandas AI, vous pouvez faire passer vos analyses et manipulations de données au niveau supérieur. Considérez-le comme un super-héros - il est là pour vous aider à sauver la situation et vous faciliter la vie.

Les possibilités offertes par Pandas AI sont infinies. Imaginez un cadre de données capable d'écrire ses propres rapports ou d'analyser des données complexes et de vous fournir des résumés faciles à comprendre.

Dans ce guide rapide, vous découvrirez étape par étape comment utiliser cette bibliothèque de pointe, quel que soit votre niveau d'expérience dans le domaine.

Que vous soyez un analyste de données expérimenté ou un débutant, ce guide vous fournira tous les outils dont vous avez besoin pour plonger dans le monde de Pandas AI en toute confiance. Alors, asseyez-vous, détendez-vous, et explorons les possibilités passionnantes que Pandas AI a à offrir !

Dépôt officiel GitHub - https://github.com/gventuri/pandas-ai

Code - https://colab.research.google.com/dr...n-?usp=sharing

Installation de Pandas AI à l'aide de pip


Notre dataframe contient des informations sur différents pays, notamment leur PIB (en millions d'USD) et leur indice de bonheur. Il se compose de 10 lignes et de 3 colonnes :

Nom : dataframe.jpg
Affichages : 3470
Taille : 28,2 Ko

Importer Pandas AI avec OpenAI

Dans l'étape suivante, nous allons importer la bibliothèque pandasai que nous avons installée précédemment et ensuite importer la fonctionnalité LLM (Large Language Model). Depuis mai 2023, pandasai ne prend en charge que le modèle OpenAI, que nous utiliserons pour comprendre les données.

Nom : importing pandasai.jpg
Affichages : 3451
Taille : 14,4 Ko

Pour utiliser l'API OpenAI, vous devez générer votre propre clé d'API. Si vous ne l'avez pas encore fait, vous pouvez facilement créer un compte sur le site officiel de la plateforme à l'adresse platform.openai.com. Une fois votre compte créé, vous recevrez instantanément un crédit de 5 $ que vous pourrez utiliser pour explorer et expérimenter l'API.

Initialiser Pandas AI et poser des questions

Ensuite, nous fournirons notre modèle OpenAI à Pandas AI et poserons diverses questions.

Nom : initializing pandasai.jpg
Affichages : 3438
Taille : 18,6 Ko

Lorsque vous utilisez pandas_ai.run, deux paramètres sont nécessaires : la base de données avec laquelle vous travaillez et la question à laquelle vous cherchez une réponse, il renvoie le top 5 des pays les plus heureux sur la base du cadre de données fourni.

Poser des questions complexes

Vérifions s'il peut dessiner les graphiques pour nous ?

Nom : asking pandasai.jpg
Affichages : 3432
Taille : 10,6 Ko

Oui, il trace le graphique, en fonction de la question que j'ai posée.

Nom : graph pandasai.jpg
Affichages : 3440
Taille : 23,1 Ko

Effectuons une tâche complexe, en supprimant les valeurs NAN de l'ensemble de données ci-dessous :

Nom : complex tasks pandasai.jpg
Affichages : 3420
Taille : 7,9 Ko

Voici le résultat que nous obtenons :

Nom : output complex tasks pandasai.jpg
Affichages : 3420
Taille : 17,7 Ko

Mais lorsque j'imprime à nouveau la variable df, elle supprime effectivement les valeurs NAN de l'ensemble de données, en supprimant entièrement cette ligne.

Nom : df var pandasai.jpg
Affichages : 3417
Taille : 6,9 Ko

La bibliothèque pandasai offre un large éventail de possibilités, et vous pouvez les explorer en visitant la page officielle du dépôt, que j'ai partagée plus tôt.

Note : Il est important de noter que travailler avec pandasai implique une tarification OpenAI, et vous pouvez trouver les informations tarifaires les plus récentes sur leur site web. En mai 2023, le prix est d'environ 1000 tokens pour 0,0200 $ (pour le modèle GPT-3.5-Turbo). Lorsque vous posez une question, il est essentiel de se rappeler que l'ensemble du cadre de données est transmis avec la question à chaque fois, de sorte que ce n'est peut-être pas la solution idéale pour traiter de grands ensembles de données.
Source : "Pandas AI - The future of data analysis" par M. Fareed Khan

Et vous ?

Quel est votre avis sur le sujet ?

Trouvez-vous que l'avis de M. Khan est crédible et pertinent, ou plutôt partisan ?

Comment évaluez-vous Pandas AI par rapport aux autres bibliothèques Python de ML/AI ? Trouvez-vous que c'est un outil utile ou un gadget additionnel ?

Voir aussi

Écosystème data science : langages les plus utilisés, impact du Covid-19, besoin des entreprises, Anaconda fait le point dans son rapport State of Data Science 2021

Python est plus utilisé pour la data science que pour le développement Web, d'après une enquête réalisée par la Python Software Foundation

Introduction à la bibliothèque Pandas - Analyse de données en Python, un tutoriel de Gabor Laszlo Hajba traduit par l'équipe de rédaction

Apprendre les notions d'analyse avancées avec Pandas, un tutoriel de Gabor Laszlo Hajba