Featured image of post Pandas Column Renaming Made Easy: Methods and Best Practices (ang.).

Pandas Column Renaming Made Easy: Methods and Best Practices (ang.).

Wygląda na to, aby zrozumieć jak nazwać kolumny w Pandach. Wykazuje również najlepsze praktyki i konwencje nazw kolumn.

Ten artykuł jest przewodnikiem na temat tego, jak nazwać kolumny w Pandas.

Pandas – biblioteka Pythona, zajmująca się zestawami danych. Łatwo odczytywać dane z różnych formatów plików, takich jak np. CSV SQL, JSON i SQL. Kiedy dane są załadowane do Pand, przechowywane są w obiektach DataFrame.

DataFrame jest dwuwymiarowym obiektem, co oznacza, że dane są przechowywane w formacie podobnym do stołu z wierszami i kolumnami. Jest to podobne do przechowywania danych w plikach CSV lub arkuszy kalkulacyjnej. Kiedy ładujesz dane, panda próbuje załadować nazwy kolumny z pliku źródłowego.

columns

Jednakże nazwy kolumny nie mogą być idealne, więc możesz chcieć zmienić nazwę kolumny na coś bardziej znaczącego.

W tym artykule po raz pierwszy omawiamy najlepsze praktyki nazw kolumn w Pandach. Od tego czasu dostajemy się do głównego tematu, który jest metodą zmiany nazwy.

Najpiękniejsze narzędzia Naming Columns in Pandas

Przed wejściem do renesansowej części tego artykułu, istnieją tu jedne z najlepszych praktyk i konwencji, które mogą chcieć podążać za nazwaniem swoich kolumn w paśmie.

Znamy nazwiska opisowe. Nazwy grzybne takie jak np. col_1 Trudno jest zrozumieć i nie przekazać informacji o danych zawartych w zestawie danych.

życzenie Użycie węży, gdy nazwa kolumn. W przypadku węży twoje kolumny patrzą na to: patrzymy. number_of_people Zamiast tego NumberOfPeople .

życzenie Podczas gdy wąż jest preferowany, należy użyć konwencji nazewnictwa, która używa swojego pierwotnego zestawu danych. To unika zamieszania, gdy porusza się pomiędzy danymi a obiektem Pandasa.

Jeśli chodzi o to, cokolwiek z konwencji nazewnictwa, używasz, pozostają spójne w danych. Unikanie niektórych kolumn używających PascalCase i innych używających węży.

Ostatnio, próbują użyć krótszych nazw. Są one łatwiejsze do typowania, ponieważ sugestie i ukończenie w notatkach są zazwyczaj podparami. Oznacza to, że kodowanie w notatce wymaga wielu ręcznych typowania kodu, a krótsze nazwy czynią życie łatwiejsze.

Jak na Rename Columns?

Możesz konsumować zawartość tego artykułu na dwóch sposobach. Po pierwsze, można przeczytać ją jako odwołanie. Po drugie, można wziąć pod uwagę. kodowanie Także ma ona lepszą szansę zapamiętania koncepcji. Zaleca tę ostatnią metodę.

Aby kodować, będzie korzystać z księgozbioru adresowanego do Google Colab. Możesz tworzyć się tak dobrze i podążać za nim; jest ona całkowicie wolna. Notatnik z kodem I will write in this tutorial jest dostępny. tutaj .

Podsumowując Notebook.

Przed rozpoczęciem renamowania kolumn w pandach, uruchomił notatnik i załadował kilka próbek. Utwory kodowe i importowane pandy za pomocą kodu poniżej.

1
import pandas as pd

Po importowaniu pand, możesz załadować. california_housing_data Zbiór danych, który jest dostępny domyślnie jako zestaw danych, gdy tworzysz notebook Google Colab.

1
housing_data = pd.read_csv('/content/sample_data/california_housing_train.csv')

Możesz zobaczyć pierwsze kilka wierszy zestawu danych za pomocą kodu.

1
housing_data.head()

Można także zapisać kolumny prezentujące dane z następującymi danymi.

1
housing_data.columns

Powinien to produkować kolejne wyjście: .

1
Index(['longitude', 'latitude', 'housing_median_age', 'total_rooms',       'total_bedrooms', 'population', 'households', 'median_income',       'median_house_value'],      dtype='object')

Oznacza to, że dane są poprawnie załadowane, a DataFrame potrzebuje.

Metoda 1: Wykorzystywanie pamięci.

Najłatwiejsza droga do ponownego nazw kolumn w pandach jest używana. rename Metoda obiektu DataFrame. Wykorzystując tę metodę. rename Kolumna nazywa się metodą rename. Metoda realizuje wiele argumentów.

W tym przypadku jesteśmy zainteresowani przekształceniem kolumny, więc przejdziemy w argumentach kluczowych. Wartość tego argumentu jest słownikiem, którego wpisy reprezentują mapy starej kolumny na nowe. Jest to przykład, w którym zmienimy nazwę. households do kolumny houses .

1
housing_data.rename(columns={ 'households': 'houses' })

Powinien to produkować kolejne wyjście: .

Housing data after renaming pandas dataframe column

Jak można zobaczyć, przechodzimy w słowniku, gdzie klucz jest starą nazwą kolumnową, a wartość jest nową nazwą kolumnową. Wartość nie musi być tylko sznurkiem. Może być również funkcją, gdzie wartość zwracana przez funkcję jest nową nazwą kolumnową. Jeśli chcesz nazwać więcej kolumn, można dodać więcej wpisów do słownika.

Metod 2: Odpowiedzianie Column String.

Inna metoda, którą można użyć do renamingu kolumn w pandach, zastępuje strunę kolumnową na DataFrame. Załóżmy, że chcesz zmienić nazwę kolumny na obecną. population by number_of_people . Wykorzystując tę metodę można pisać następujące kody: Poniższy kod: .

1
housing_data.columns = housing_data.columns.str.replace('population', 'number_of_people')

W celu wydania zmodyfikowanej listy używamy następującego kodu: .

1
housing_data

Powinien to produkować kolejne wyjście do ekranu.

Screenshot-from-2023-04-04-07-35-06

Metoda 3: Przypisanie nazw Column.

Alternatywnie można zmienić nazwy kolumn w Pandach, przypisując listę do własności kolumn DataFrame. W tym przykładzie, jeśli chciałam zmienić wszystkie kolumny, aby wszystkie ich numery używały, mógłbym użyć następującego kodu.

1
housing_data.columns = [x for x in range(9)]

W tym przykładzie założyłem. housing_data.columns Przypisuje listę liczb całkowitych od 0 do 8. Aby wygenerować listę, użyłem listy, które są miejscową cechą Pythona, aby wygodnie generować listy wartości używających wartości. for loop

Niekorzystne użycie tej metody polega na zmianie nazwy nazw kolumn, nie można po prostu nazwać podzbiorem kolumn. Pomysłowo nazwy kolumny powinny być czymś bardziej opisowym, ale po prostu używam tam liczby.

Możesz oglądać wyjście poprzez pisanie następujących słów:

1
housing_data

Screenshot-from-2023-04-04-05-58-41

Metod 4: Using the set_axis() Function to Rename Columns in Pandas (ang.).

Metoda omawiana jest metodą _axis obiektu DataFrame. Metoda ta jest używana do ustalania listy wartości jako wartości osi dla dowolnej z dwóch osi w Pandach. Odkąd mamy do czynienia z kolumnami, mamy do czynienia ze sobą. axis 1 . Aby użyć tej metody, używamy następującego kodu:

1
column_names = [str(x) for x in range(8, -1, -1)]housing_data.set_axis(column_names, axis=1, inplace=True)

Pierwsza linia generuje listę wartości od 8 do 0 w kolejności i przechowuje je w kolejności. column_names zmienna. W drugiej linijce nazywamy metodą set_axis. column_names Jako argument i ustawienie osi jako osi 1. ustaliśmy także inplace by True W ten sposób modyfikuje oryginalne dane.

Wskazuje się na to, że dane wolne są przez pisanie.

1
housing_data

Powinien to produkować następujące poniższe: .

Screenshot-from-2023-04-04-06-47-20

Słowo końcowe

Ten artykuł krótko wprowadził, jak dane są przechowywane w formacie tabularnym w pandach. Oświadczamy również, że najlepsze praktyki nazw kolumn w Pandach ułatwiają nam życie.

Ostatnio i najważniejsze, omawiano również różne metody renamingu kolumn w pandach.

Następnie sprawozdają się oczekiwać. Jak tworzyć Pandas DataFrame (pol.). .