Cet article est un guide sur la façon de renommer les colonnes dans Pandas.
Pandas est une bibliothèque Python pour traiter des ensembles de données. Elle lit facilement des données à partir de différents formats de fichiers tels que CSV , JSON et SQL. Lorsque des données sont chargées dans Pandas, elles sont stockées dans un objet DataFrame.
Un DataFrame est un objet bidimensionnel, ce qui signifie que les données sont stockées dans un format de type tableau avec des lignes et des colonnes. Cela ressemble à stocker des données dans des fichiers CSV ou des feuilles de calcul. Lorsque vous chargez des données, pandas essaiera de charger les noms des colonnes à partir du fichier source de l’ensemble de données.
Cependant, les noms des colonnes chargés peuvent ne pas être idéaux, et vous voudrez peut-être les renommer pour quelque chose de plus significatif.
Dans cet article, nous discuterons d’abord des meilleures pratiques pour nommer les colonnes dans Pandas. Par la suite, nous aborderons la partie principale, qui est les méthodes de les renommer.
Meilleures Pratiques pour Nommer les Colonnes dans Pandas
Avant de passer à la partie guide de renommage de cet article, voici quelques bonnes pratiques et conventions que vous pouvez suivre lors de la nomination de vos colonnes dans pandas.
✅ Utilisez des noms descriptifs. Les noms cryptiques comme col_1 sont difficiles à comprendre et ne communiquent pas beaucoup d’informations sur les données contenues dans l’ensemble de données.
✅ Utilisez snake case lors de la nomination des colonnes. Dans snake case, vos noms de colonnes ressembleront à ceci : number_of_people Au lieu de ceci NumberOfPeople .
✅ Bien que snake case soit préférable, vous devriez utiliser la convention de nommage que votre ensemble de données d’origine utilise. Cela évite la confusion lors du passage entre votre ensemble de données et l’objet DataFrame de Pandas.
✅ Quelle que soit la convention de nommage que vous utilisez, restez cohérent dans l’ensemble de l’ensemble de données. Évitez de nommer certaines colonnes en PascalCase et d’autres en snake_case.
✅ Enfin, essayez d’utiliser des noms plus courts. Ceux-ci sont plus faciles à taper car les suggestions et la complétion de code dans les notebooks sont généralement médiocres. Cela signifie que la programmation dans un notebook nécessite beaucoup de saisie manuelle de code, et des noms plus courts facilitent la vie.
Comment Renommer les Colonnes dans Pandas
Vous pouvez consommer le contenu de cet article de deux manières. Premièrement, vous pouvez simplement lire ceci comme référence. Deuxièmement, vous pouvez suivre le guide, coder également, afin d’avoir une meilleure chance de vous souvenir des concepts abordés. Je recommande la deuxième méthode.
Pour coder, j’utiliserai un notebook hébergé sur Google Colab. Vous pouvez en créer un vous-même et suivre le guide ; c’est totalement gratuit. Le notebook avec tout le code que j’écrirai dans ce tutoriel est disponible ici .
Configuration du Notebook
Avant de commencer à renommer les colonnes dans pandas, configurons le notebook et chargeons quelques données d’échantillon. Créez une cellule de code et importez pandas en utilisant le code ci-dessous.
import pandas as pd
Après avoir importé pandas, vous pouvez charger l’ensemble de données california_housing_data , qui est disponible par défaut en tant qu’ensemble de données d’échantillon lors de la création d’un notebook Google Colab.
housing_data = pd.read_csv(‘/content/sample_data/california_housing_train.csv’)
Vous pouvez voir les premières lignes de l’ensemble de données en utilisant le code :
housing_data.head()
Vous pouvez également lister les colonnes présentes dans l’ensemble de données en utilisant le code suivant :
housing_data.columns
Cela devrait produire la sortie suivante :
Index([‘longitude’, ‘latitude’, ‘housing_median_age’, ‘total_rooms’, ‘total_bedrooms’, ‘population’, ‘households’, ‘median_income’, ‘median_house_value’], dtype=’object’)
Cela signifie que vos données ont été correctement chargées et que le DataFrame contient ce dont nous avons besoin.
Méthode 1 : Utilisation de la Fonction Renommer
Le moyen le plus simple de renommer les colonnes dans pandas est d’utiliser la rename méthode de l’objet DataFrame. En utilisant cette méthode, vous renommez une colonne en appelant la méthode rename. La méthode prend plusieurs arguments.
Dans ce cas, nous sommes intéressés par le renommage d’une colonne, nous allons donc passer l’argument mot-clé columns. La valeur de cet argument est un dictionnaire dont les entrées représentent la correspondance entre les anciens noms de colonnes et les nouveaux. Voici un exemple où nous renommons la colonne households en houses .
housing_data.rename(columns={ ‘households’: ‘houses’ })
Cela devrait produire la sortie suivante :
Comme vous pouvez le voir, nous passons un dictionnaire où la clé est l’ancien nom de colonne et la valeur est le nouveau nom de colonne. La valeur n’a pas besoin d’être simplement une chaîne. Il peut également s’agir d’une fonction qui définit une fonction et qui effectue une opération sur un ancien nom de colonne pour retourner un nouveau nom. Si vous avez plusieurs colonnes à renommer, vous pouvez même définir une fonction qui prend un nom de colonne et retourne un nouveau nom de colonne, puis l’utiliser comme valeur de l’argument « colonnes ».
Méthode 2 : Modification du DataFrame directement
Vous pouvez également modifier les noms des colonnes d’un DataFrame directement. Par exemple, si vous avez un DataFrame appelé « mon_dataframe » et que vous souhaitez renommer la première colonne en « nouvelle_colonne », vous pouvez le faire comme suit :
mon_dataframe.columns = [‘nouvelle_colonne’] + list(mon_dataframe.columns[1:])
Dans cet exemple, nous créons une nouvelle liste avec le nouveau nom de la première colonne et le reste des noms de colonnes à partir du reste de l’objet columns. Cela remplace les noms de colonnes existants par la nouvelle liste.
Méthode 3 : Utilisation de la méthode `set_axis`
La méthode `set_axis` peut également être utilisée pour renommer les colonnes. Il peut être utilisé pour définir une liste de valeurs comme valeurs de l’axe pour l’un des deux axes dans Pandas. Étant donné que nous renommons les colonnes, nous allons définir l’axe 1. Pour utiliser cette méthode, nous utilisons le code suivant :
mon_dataframe.columns = [‘Nouvelle_colonne1’, ‘Nouvelle_colonne2’, ‘Nouvelle_colonne3’, ‘Nouvelle_colonne4’, ‘Nouvelle_colonne5’, ‘Nouvelle_colonne6’, ‘Nouvelle_colonne7’, ‘Nouvelle_colonne8’]
Cela va remplacer tous les noms de colonnes existants par la nouvelle liste. Pour modifier l’objet DataFrame d’origine en place, vous pouvez définir l’argument « inplace » sur « True ». Vous pouvez par exemple renommer les colonnes suivantes :
mon_dataframe.set_axis([‘Colonne1’, ‘Colonne2’, ‘Colonne3’, ‘Colonne4’, ‘Colonne5’, ‘Colonne6’, ‘Colonne7’, ‘Colonne8’], axis=1, inplace=True)
Pour afficher le DataFrame, vous pouvez taper le nom de l’objet DataFrame :
mon_dataframe
Derniers mots
Cet article a brièvement introduit la manière dont les données sont stockées dans un format tabulaire dans pandas. Nous avons également discuté des meilleures pratiques pour nommer les colonnes dans pandas afin de nous faciliter la vie.
Enfin et plus important encore, nous avons également discuté des différentes méthodes de renommage des colonnes dans pandas.
Ensuite, consultez comment créer un DataFrame Pandas [avec des exemples] .