Bibliothèque Pandas
La bibliothèque Pandas est une bibliothèque qui fournit des structures de données de haute performance et faciles à utiliser, ainsi que des outils de manipulation de données pour Python. Elle est particulièrement utile pour le traitement de données et l'analyse de données en Python. Puisque Pandas n'est pas une bibliothèque standard de Python, il faut l'installer avant de pouvoir l'utiliser.
Importation de Pandas
Pour importer Pandas dans votre script Python, vous pouvez utiliser la commande suivante:
Ici on importe pandas avec l'alias pd, qui est un alias couramment utilisé pour Pandas, mais c'est également possible de l'importer sans alias.
Dataframe
L'objet principal de Pandas est le Dataframe, qui est une structure de données bidimensionnelle avec des colonnes de types différents. Vous pouvez voir cela comme une table de base de données ou une feuille de calcul Excel. En fait, Pandas nous permet de faire plusieurs opérations similaires à celles que l'on ferait sur une base de données sur un Dataframe. Vous explorerez davantage les Dataframes dans vos cours futurs. Un Dataframe peut être créé à partir de diverses sources de données telles que des listes, des dictionnaires, des fichiers CSV, etc.
Création d'un Dataframe
Voici un exemple simple de création d'un Dataframe à partir d'un dictionnaire:
Avec un dictionnaire, les clés du dictionnaire deviennent les noms des colonnes du Dataframe, et les valeurs du dictionnaire deviennent les données dans les colonnes. Vous pouvez également spécifier l'ordre des colonnes en passant une liste de noms de colonnes à la création du Dataframe.
Lecture d'un Dataframe
Bien sûr, il est encore plus courant de lire des données à partir de fichiers CSV, Excel, SQL, etc. dans un Dataframe. La librairie Pandas fournit des fonctions pour lire des données à partir de ces sources. Par exemple, pour lire un fichier CSV, vous pouvez utiliser la fonction read_csv:
Manipulation des Dataframes
Une fois que vous avez créé un Dataframe, vous pouvez effectuer diverses opérations de manipulation de données sur celui-ci, telles que la sélection de lignes et de colonnes, le filtrage, le tri, etc. Vous explorerez davantage ces opérations dans vos cours futurs. Nous verrons simplement les opérations de base, comme sélectionner une colonne ou une ligne spécifique.
Sélection d'une colonne
Pour sélectionner une colonne spécifique d'un Dataframe, la syntaxe est similaire à la sélection d'une clé dans un dictionnaire, on utilise le nom de la colonne entre crochets. On peut également transformer une colonne d'un Dataframe en une liste en utilisant .values:
Sélection d'une ligne
Pour sélectionner une ligne spécifique d'un Dataframe, on utilise la méthode iloc avec l'index de la ligne:
Filtrage
On peut également filtrer les lignes d'un Dataframe en fonction de certaines conditions. Par exemple, pour sélectionner les lignes où l'âge est supérieur à 30:
Nous pourrions certainement passer des heures à explorer toutes les fonctionnalités de Pandas, mais pour l'instant, nous nous contenterons de ces bases. Vous en apprendrez davantage sur Pandas dans vos cours futurs puisque c'est une bibliothèque très utilisée en analyse de données.