Featured image of post Pandas Column Renaming Made Easy: Méthodes et meilleures pratiques

Pandas Column Renaming Made Easy: Méthodes et meilleures pratiques

Explorez ce guide pour comprendre comment renommer les colonnes dans Pandas. Consultez également les meilleures pratiques et conventions pour nommer des colonnes.

Cet article est un guide sur la façon de renommer les colonnes dans Pandas.

Pandas est une bibliothèque Python pour traiter avec des ensembles de données. Il lit facilement des données à partir de différents formats de fichiers tels que CSV , JSON et SQL. Lorsque les données sont chargées dans Pandas, elles sont stockées dans un objet DataFrame.

Un DataFrame est un objet à deux dimensions, ce qui signifie que les données sont stockées dans un format de table avec des lignes et des colonnes. Ceci est similaire à la conservation des données dans les fichiers CSV ou tableur. Lorsque vous chargez des données, pandas essayera de charger des noms de colonnes du fichier source de dataset.

columns

Cependant, les noms de colonnes chargés peuvent ne pas être idéal, et vous pouvez vouloir renommer les colonnes à quelque chose de plus significatif.

Dans cet article, nous allons d’abord discuter des meilleures pratiques pour nommer des colonnes dans Pandas. Ensuite, nous arriverons au sujet principal, qui est les méthodes pour les renommer.

Meilleures pratiques pour nommer des colonnes à Pandas

Avant d’arriver à la partie du guide de renom de cet article, voici quelques meilleures pratiques et conventions que vous pouvez suivre lorsque vous nommez vos colonnes dans les pandas.

Utiliser des noms descriptifs. Des noms cryptiques comme col_1 sont difficiles à comprendre et ne transmettent pas beaucoup d’informations sur les données contenues dans le jeu de données.

ident Utilisez le cas de serpent lorsque vous nommez des colonnes. Dans le cas de serpent, vos noms de colonnes ressembleront à ceci: number_of_people Au lieu de ça NumberOfPeople .

ident Alors que le cas de serpent est préféré, vous devriez utiliser la convention de nom que votre jeu de données original utilise. Cela évite la confusion lors du déplacement entre votre dataset et l’objet DataFrame de Pandas.

Chaque convention de dénomination que vous utilisez demeure cohérente dans l’ensemble de données. Évitez de nommer certaines colonnes en utilisant PascalCase et d’autres en utilisant serpent_case.

Enfin, essayez d’utiliser des noms plus courts. Ils sont plus faciles à taper puisque la suggestion de code et l’achèvement dans les cahiers sont généralement subpar. Cela signifie que le codage dans un cahier nécessite beaucoup de typage manuel de code, et les noms plus courts rendent la vie plus facile.

Comment renommer les colonnes dans Pandas

Vous pouvez consommer le contenu de cet article de deux façons. D’abord, vous pouvez lire ceci comme une référence. Deuxièmement, vous pouvez suivre, codage Ainsi, vous avez une meilleure chance de vous souvenir des concepts discutés. Je recommande cette dernière méthode.

Pour coder, je vais utiliser un cahier hébergé avec Google Colab. Vous pouvez en créer un aussi bien et suivre le long; il est complètement libre. Le cahier avec tout le code que je vais écrire dans ce tutoriel est disponible ici. .

Configuration du cahier

Avant de commencer à renommer les colonnes dans les pandas, installons le cahier et chargez quelques données d’échantillon. Créer une cellule de code et importer des pandas en utilisant le code ci-dessous.

1
import pandas as pd

Après l’importation de pandas, vous pouvez charger california_housing_data dataset, qui est disponible par défaut en tant que dataset d’échantillon lorsque vous créez un cahier Google Colab.

1
housing_data = pd.read_csv('/content/sample_data/california_housing_train.csv')

Vous pouvez voir les premières lignes du jeu de données en utilisant le code:

1
housing_data.head()

Vous pouvez également lister les colonnes présentes dans le jeu de données avec ce qui suit:

1
housing_data.columns

Ceci devrait produire la production suivante:

1
Index(['longitude', 'latitude', 'housing_median_age', 'total_rooms',       'total_bedrooms', 'population', 'households', 'median_income',       'median_house_value'],      dtype='object')

Cela signifie que vos données ont été chargées correctement, et le DataFrame a ce dont nous avons besoin.

Méthode 1: Utiliser la fonction Rename

La manière la plus facile de renommer des colonnes dans les pandas est d’utiliser le rename méthode de l’objet DataFrame. En utilisant cette méthode, vous rename une colonne en appelant la méthode de renom. La méthode prend en plusieurs arguments.

Dans ce cas, nous sommes intéressés à renommer une colonne, donc nous passerons dans l’argument de mots-clés colonnes. La valeur de cet argument est un dictionnaire dont les entrées représentent la cartographie des anciens noms de colonne aux nouveaux. Voici un exemple où nous renommes households colonne houses .

1
housing_data.rename(columns={ 'households': 'houses' })

Ceci devrait produire la production suivante:

Housing data after renaming pandas dataframe column

Comme vous pouvez le voir, nous passons dans un dictionnaire où la clé est l’ancien nom de colonne, et la valeur est le nouveau nom de colonne. La valeur ne doit pas être seulement une chaîne. Il peut également être une fonction où la valeur retournée par la fonction est le nouveau nom de colonne. Si vous voulez renommer plus de colonnes, vous pouvez ajouter plus d’entrées au dictionnaire.

Méthode 2: Remplacement de la corde de colonne

Une autre méthode que vous pourriez utiliser pour renommer les colonnes dans les pandas consiste à remplacer la chaîne de colonnes sur une DataFrame. Supposez que vous vouliez renommer la colonne actuellement nommée population to number_of_people . En utilisant cette méthode, vous écriviez le code suivant:

1
housing_data.columns = housing_data.columns.str.replace('population', 'number_of_people')

Pour imprimer la liste modifiée, nous utilisons le code suivant :

1
housing_data

Ceci devrait produire la sortie suivante à l’écran :

Screenshot-from-2023-04-04-07-35-06

Méthode 3: Liste des noms de colonnes

Alternativement, vous pouvez renommer des colonnes dans Pandas en assignant une liste à la propriété colonnes de la DataFrame. Par exemple, si je voulais renommer toutes les colonnes pour qu’elles utilisent tous les numéros, je pourrais utiliser le code suivant :

1
housing_data.columns = [x for x in range(9)]

Dans cet exemple, j’ai défini le housing_data.columns attribut à une liste des entiers de 0 à 8. Pour générer la liste, j’ai utilisé la compréhension de la liste, qui est une fonction Python native pour générer commodément des listes de valeurs en utilisant une for Boucle.

L’inconvénient de cette méthode est que vous devez renommer l’ensemble des noms de colonnes; Vous ne pouvez pas simplement renommer un sous-ensemble de colonnes. Idéalement, vos noms de colonnes devraient être quelque chose de plus descriptif, mais j’utilise juste des numéros ici comme démonstration.

Vous pouvez voir la sortie en écrivant ce qui suit:

1
housing_data

Screenshot-from-2023-04-04-05-58-41

Méthode 4: Utiliser la fonction set_axis() pour renommer les colonnes dans Pandas

La méthode que nous allons discuter est la méthode set_axis de l’objet DataFrame. Cette méthode est utilisée pour définir une liste de valeurs comme valeurs d’axe pour l’un des deux axes de Pandas. Puisque nous renommons des colonnes, nous définissons axis 1 . Pour utiliser cette méthode, nous utilisons le code suivant :

1
column_names = [str(x) for x in range(8, -1, -1)]housing_data.set_axis(column_names, axis=1, inplace=True)

La première ligne génère une liste de valeurs de 8 à 0 en ordre descendant et les stocke dans la column_names variable. Dans la deuxième ligne, nous appelons la méthode set_axis, fournissant la column_names comme axe d’argument et de réglage à modifier comme axe 1. Nous avons aussi mis inplace to True donc il modifie l’original DataFrame.

Nous pouvons voir le DataFrame en écrivant:

1
housing_data

Ceci devrait produire les éléments suivants:

Screenshot-from-2023-04-04-06-47-20

Paroles finales

Cet article a brièvement présenté comment les données sont stockées en format tabulaire dans les pandas. Nous avons également discuté des meilleures pratiques pour nommer des colonnes dans Pandas pour rendre notre vie plus facile.

Enfin et surtout, nous avons également discuté des différentes méthodes de renom des colonnes dans les pandas.

Suivant, vérifiez comment créer un Pandas DataFrame [avec des exemples] .