Bibliothèque Pandas

La bibliothèque Pandas est une bibliothèque qui fournit des structures de données de haute performance et faciles à utiliser, ainsi que des outils de manipulation de données pour Python. Elle est particulièrement utile pour le traitement de données et l'analyse de données en Python. Puisque Pandas n'est pas une bibliothèque standard de Python, il faut l'installer avant de pouvoir l'utiliser.

shell

Importation de Pandas

Pour importer Pandas dans votre script Python, vous pouvez utiliser la commande suivante:

Python

Ici on importe pandas avec l'alias pd, qui est un alias couramment utilisé pour Pandas, mais c'est également possible de l'importer sans alias.

Dataframe

L'objet principal de Pandas est le Dataframe, qui est une structure de données bidimensionnelle avec des colonnes de types différents. Vous pouvez voir cela comme une table de base de données ou une feuille de calcul Excel. En fait, Pandas nous permet de faire plusieurs opérations similaires à celles que l'on ferait sur une base de données sur un Dataframe. Vous explorerez davantage les Dataframes dans vos cours futurs. Un Dataframe peut être créé à partir de diverses sources de données telles que des listes, des dictionnaires, des fichiers CSV, etc.

Création d'un Dataframe

Voici un exemple simple de création d'un Dataframe à partir d'un dictionnaire:

Python

Avec un dictionnaire, les clés du dictionnaire deviennent les noms des colonnes du Dataframe, et les valeurs du dictionnaire deviennent les données dans les colonnes. Vous pouvez également spécifier l'ordre des colonnes en passant une liste de noms de colonnes à la création du Dataframe.

Lecture d'un Dataframe

Bien sûr, il est encore plus courant de lire des données à partir de fichiers CSV, Excel, SQL, etc. dans un Dataframe. La librairie Pandas fournit des fonctions pour lire des données à partir de ces sources. Par exemple, pour lire un fichier CSV, vous pouvez utiliser la fonction read_csv:

Python

Manipulation des Dataframes

Une fois que vous avez créé un Dataframe, vous pouvez effectuer diverses opérations de manipulation de données sur celui-ci, telles que la sélection de lignes et de colonnes, le filtrage, le tri, etc. Vous explorerez davantage ces opérations dans vos cours futurs. Nous verrons simplement les opérations de base, comme sélectionner une colonne ou une ligne spécifique.

Sélection d'une colonne

Pour sélectionner une colonne spécifique d'un Dataframe, la syntaxe est similaire à la sélection d'une clé dans un dictionnaire, on utilise le nom de la colonne entre crochets. On peut également transformer une colonne d'un Dataframe en une liste en utilisant .values:

Python

Sélection d'une ligne

Pour sélectionner une ligne spécifique d'un Dataframe, on utilise la méthode iloc avec l'index de la ligne:

Python

Filtrage

On peut également filtrer les lignes d'un Dataframe en fonction de certaines conditions. Par exemple, pour sélectionner les lignes où l'âge est supérieur à 30:

Python

Nous pourrions certainement passer des heures à explorer toutes les fonctionnalités de Pandas, mais pour l'instant, nous nous contenterons de ces bases. Vous en apprendrez davantage sur Pandas dans vos cours futurs puisque c'est une bibliothèque très utilisée en analyse de données.

<< Page précédente