Die Pandas-Bibliothek macht Python-basierte Datenwissenschaft zum Kinderspiel. Es ist eine beliebte Python-Bibliothek zum Lesen, Zusammenführen, Sortieren, Bereinigen von Daten und mehr. Obwohl Pandas einfach zu verwenden und auf Datensätze anzuwenden ist, müssen viele Datenmanipulationsfunktionen erlernt werden.

Sie können Pandas verwenden, aber es besteht eine gute Chance, dass Sie sie nicht ausreichend nutzen, um datenbezogene Probleme zu lösen. Hier ist unsere Liste wertvoller Pandas-Funktionen zur Datenmanipulation, die jeder Datenwissenschaftler kennen sollte.

Installieren Sie Pandas in Ihrer virtuellen Umgebung

Bevor wir fortfahren, stellen Sie sicher, dass Sie Pandas mit pip in Ihrer virtuellen Umgebung installieren:

pip install pandas

Importieren Sie nach der Installation Pandas oben in Ihrem Skript und fahren Sie fort.

1. Pandas. Datenrahmen

Sie nutzen Pandas. Datenrahmen() um einen DataFrame in Pandas zu erstellen. Es gibt zwei Möglichkeiten, diese Funktion zu verwenden.

Sie können einen DataFrame spaltenweise bilden, indem Sie ein Wörterbuch an die

instagram viewer
Pandas. Datenrahmen() Funktion. Hier ist jeder Schlüssel eine Spalte, während die Werte die Zeilen sind:

Pandas importieren
DataFrame = Pandas. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
drucken (DataFrame)

Die andere Methode besteht darin, den DataFrame über Zeilen hinweg zu bilden. Aber hier trennen Sie die Werte (Zeilenelemente) von den Spalten. Die Anzahl der Daten in jeder Liste (Zeilendaten) muss auch mit der Anzahl der Spalten übereinstimmen.

Pandas importieren
DataFrame = Pandas. DataFrame([[1, 4, 5], [7, 19, 13]], column= ["J", "K", "L"])
drucken (DataFrame)

2. Lesen aus und Schreiben in Excel oder CSV in Pandas

Sie können mit Pandas Excel- oder CSV-Dateien lesen oder schreiben.

Lesen von Excel- oder CSV-Dateien

So lesen Sie eine Excel-Datei:

#Ersetzen Sie example.xlsx durch Ihren Excel-Dateipfad
DataFrame = DataFrame.read_excel("example.xlsx")

So lesen Sie eine CSV-Datei:

#Ersetzen Sie example.csv durch Ihren CSV-Dateipfad
DataFrame = DataFrame.read_csv("example.csv")

Schreiben in Excel oder CSV

Das Schreiben in Excel oder CSV ist eine bekannte Panda-Operation. Und es ist praktisch, um neu berechnete Tabellen in separaten Datenblättern zu speichern.

So schreiben Sie in eine Excel-Tabelle:

DataFrame.to_excel("full_path_of_the_destination_folder/filename.xlsx")

Wenn Sie in CSV schreiben möchten:

DataFrame.to_csv("full_path_of_the_destination_folder/filename.csv")

Sie können mit Pandas auch die zentralen Tendenzen jeder Spalte in einem DataFrame berechnen.

So erhalten Sie den Mittelwert jeder Spalte:

DataFrame.mean()

Für den Median- oder Moduswert ersetzen Sie bedeuten() mit Median() oder Modus().

4. DataFrame.transform

Pandas DataFrame.transform() ändert die Werte eines DataFrame. Es akzeptiert eine Funktion als Argument.

Zum Beispiel multipliziert der folgende Code jeden Wert in einem DataFrame mit drei unter Verwendung von Pythons Lambda-Funktion:

DataFrame = DataFrame.transform (Lambda y: y*3)
drucken (DataFrame)

5. DataFrame.isnull

Diese Funktion gibt einen booleschen Wert zurück und kennzeichnet alle Zeilen mit Nullwerten als Wahr:

DataFrame.isnull()

Das Ergebnis des obigen Codes kann bei größeren Datensätzen schwer zu lesen sein. So können Sie die isnull().sum() Funktion statt. Dies gibt eine Zusammenfassung aller fehlenden Werte für jede Spalte zurück:

DataFrame.isnull().sum()

6. Datenrahmen.info

Der die Info() Funktion ist ein wesentliche Panda-Operation. Stattdessen wird die Zusammenfassung der nicht fehlenden Werte für jede Spalte zurückgegeben:

DataFrame.info()

7. DataFrame.describe

Der beschreiben() -Funktion gibt Ihnen die zusammenfassende Statistik eines DataFrame:

DataFrame.describe()

8. DataFrame.replace

Verwendung der DataFrame.replace() -Methode in Pandas können Sie ausgewählte Zeilen durch andere Werte ersetzen.

Zum Beispiel, um ungültige Zeilen mit zu tauschen Nan:

# Stellen Sie sicher, dass Sie pip install numpy verwenden, damit dies funktioniert
numpy importieren
Pandas importieren
# Wenn Sie ein Inplace-Schlüsselwort hinzufügen und es auf True setzen, werden die Änderungen dauerhaft:
DataFrame.replace([ungültig_1, ungültig_2], numpy.nan, inplace=True)
drucken (DataFrame)

9. DataFrame.fillna

Mit dieser Funktion können Sie leere Zeilen mit einem bestimmten Wert füllen. Du kannst alles füllen Nan Zeilen in einem Datensatz mit dem Mittelwert, zum Beispiel:

DataFrame.fillna (df.mean(), inplace = True)
drucken (DataFrame)

Sie können auch spaltenspezifisch sein:

DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
drucken (DataFrame)

10. DataFrame.dropna

Der dropna() -Methode entfernt alle Zeilen, die Nullwerte enthalten:

DataFrame.dropna (inplace = True)
drucken (DataFrame)

11. DataFrame.insert

Sie können Pandas verwenden Einfügung() -Funktion, um einem DataFrame eine neue Spalte hinzuzufügen. Es akzeptiert drei Schlüsselwörter, die Spaltenname, eine Liste seiner Daten und seine Lage, das ist ein Spaltenindex.

So funktioniert das:

DataFrame.insert (Spalte = 'C', Wert = [3, 4, 6, 7], loc=0)
drucken (DataFrame)

Der obige Code fügt die neue Spalte am Nullspaltenindex ein (sie wird zur ersten Spalte).

12. DataFrame.loc

Sie können verwenden loc um die Elemente in einem bestimmten Index zu finden. So zeigen Sie beispielsweise alle Elemente in der dritten Zeile an:

DataFrame.loc[2]

13. DataFrame.pop

Mit dieser Funktion können Sie eine angegebene Spalte aus einem Pandas DataFrame entfernen.

Es akzeptiert ein Artikel -Schlüsselwort, gibt die eingeblendete Spalte zurück und trennt sie vom Rest des DataFrame:

DataFrame.pop (item= 'column_name')
drucken (DataFrame)

14. DataFrame.max, min

Die maximalen und minimalen Werte mit Pandas zu erhalten ist einfach:

DataFrame.min()

Der obige Code gibt den Mindestwert für jede Spalte zurück. Um das Maximum zu erhalten, ersetzen Sie Mindest mit max.

15. DataFrame.join

Der beitreten() Mit der Funktion von Pandas können Sie DataFrames mit unterschiedlichen Spaltennamen zusammenführen. Sie können den linken, rechten, inneren oder äußeren Join verwenden. So verknüpfen Sie einen DataFrame mit zwei anderen Links:

#Linke längere Spalten mit kürzeren verbinden
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
drucken (newDataFrame)

Um DataFrames mit ähnlichen Spaltennamen zu verbinden, können Sie sie unterscheiden, indem Sie links oder rechts ein Suffix einfügen. Tun Sie dies, indem Sie die lsuffix oder rsuffix Stichwort:

newDataFrame = df1.join([df2, rsuffix='_', how='outer') 
drucken (newDataFrame)

16. DataFrame.combine

Der kombinieren() -Funktion ist praktisch, um zwei DataFrames mit ähnlichen Spaltennamen basierend auf festgelegten Kriterien zusammenzuführen. Es akzeptiert a Funktion Stichwort.

Um beispielsweise zwei DataFrames mit ähnlichen Spaltennamen nur basierend auf den Maximalwerten zusammenzuführen:

newDataFrame = df.combine (df2, numpy.minimum)
drucken (newDataFrame)

Notiz: Sie können auch eine benutzerdefinierte Auswahlfunktion definieren und einfügen numpy.minimum.

17. DataFrame.astype

Der astype() -Funktion ändert den Datentyp einer bestimmten Spalte oder eines bestimmten DataFrame.

So ändern Sie beispielsweise alle Werte in einem DataFrame in einen String:

DataFrame.astype (str)

18. DataFrame.sum

Der Summe() Die Funktion in Pandas gibt die Summe der Werte in jeder Spalte zurück:

DataFrame.sum()

Sie können die kumulierte Summe aller Artikel auch mit ermitteln cumsum ():

DataFrame.cumsum()

19. DataFrame.drop

Pandas fallen() -Funktion löscht bestimmte Zeilen oder Spalten in einem DataFrame. Sie müssen die Spaltennamen oder den Zeilenindex und eine Achse angeben, um ihn zu verwenden.

So entfernen Sie beispielsweise bestimmte Spalten:

df.drop (Spalten=['Spalte1', 'Spalte2'], Achse=0)

So löschen Sie beispielsweise Zeilen auf den Indizes 1, 3 und 4:

df.drop([1, 3, 4], Achse=0)

20. DataFrame.korr

Möchten Sie die Korrelation zwischen Integer- oder Float-Spalten finden? Pandas können Ihnen dabei helfen, dies zu erreichen korr() Funktion:

DataFrame.corr()

Der obige Code gibt einen neuen DataFrame zurück, der die Korrelationssequenz zwischen allen Integer- oder Float-Spalten enthält.

21. DataFrame.add

Der hinzufügen() Mit dieser Funktion können Sie jedem Wert in DataFrame eine bestimmte Zahl hinzufügen. Es funktioniert, indem es durch einen DataFrame iteriert und jedes Element bearbeitet.

Verwandt:So verwenden Sie For-Schleifen in Python

Um beispielsweise 20 zu jedem der Werte in einer bestimmten Spalte hinzuzufügen, die Ganzzahlen oder Gleitkommazahlen enthält:

DataFrame['interger_column'].add (20)

22. DataFrame.sub

Wie bei der Additionsfunktion können Sie auch von jedem Wert in einem DataFrame oder einer bestimmten Spalte eine Zahl subtrahieren:

DataFrame['interger_column'].sub (10)

23. DataFrame.mul

Dies ist eine Multiplikationsversion der Additionsfunktion von Pandas:

DataFrame['interger_column'].mul (20)

24. DataFrame.div

Ebenso können Sie jeden Datenpunkt in einer Spalte oder einem DataFrame durch eine bestimmte Zahl teilen:

DataFrame['interger_column'].div (20)

25. DataFrame.std

Verwendung der std() -Funktion können Sie mit Pandas auch die Standardabweichung für jede Spalte in einem DataFrame berechnen. Es funktioniert, indem es durch jede Spalte in einem Datensatz iteriert und die Standardabweichung für jede berechnet:

DataFrame.std()

26. DataFrame.sort_values

Sie können Werte auch basierend auf einer bestimmten Spalte aufsteigend oder absteigend sortieren. So sortieren Sie einen DataFrame in absteigender Reihenfolge, zum Beispiel:

newDataFrame = DataFrame.sort_values ​​(by = "colmun_name", absteigend = True)

27. DataFrame.melt

Der schmelzen() Funktion in pandas kippt die Spalten in einem DataFrame in einzelne Zeilen. Es ist, als würde man die Anatomie eines DataFrame offenlegen. So können Sie den jeder Spalte explizit zugewiesenen Wert anzeigen.

newDataFrame = DataFrame.melt()

28. DataFrame.count

Diese Funktion gibt die Gesamtzahl der Elemente in jeder Spalte zurück:

DataFrame.count()

29. DataFrame.query

Pandas Anfrage() können Sie Elemente mit ihrer Indexnummer aufrufen. Um die Elemente in der dritten Zeile abzurufen, zum Beispiel:

DataFrame.query('4') # Rufen Sie die Abfrage für den vierten Index auf

30. DataFrame.where

Der wo() Funktion ist eine Pandas-Abfrage, die eine Bedingung zum Abrufen bestimmter Werte in einer Spalte akzeptiert. Um zum Beispiel alle Altersgruppen unter 30 von einem Das Alter Säule:

DataFrame.where (DataFrame['Alter'] < 30)

Der obige Code gibt einen DataFrame aus, der alle Altersgruppen unter 30 enthält, aber zuweist Nan in Zeilen, die die Bedingung nicht erfüllen.

Behandeln Sie Daten wie ein Profi mit Pandas

pandas ist eine Fundgrube an Funktionen und Methoden für den Umgang mit kleinen bis großen Datensätzen mit Python. Die Bibliothek ist auch praktisch zum Bereinigen, Validieren und Vorbereiten von Daten für Analysen oder maschinelles Lernen.

Sich die Zeit zu nehmen, es zu beherrschen, macht Ihr Leben als Data Scientist definitiv einfacher und es lohnt sich. Zögern Sie also nicht, alle Funktionen zu übernehmen, die Sie handhaben können.

20 Python-Funktionen, die Sie kennen sollten

Die Python-Standardbibliothek enthält viele Funktionen, die Sie bei Ihren Programmieraufgaben unterstützen. Erfahren Sie mehr über die nützlichsten und erstellen Sie robusteren Code.

Weiter lesen

TeilenTweetEmail
Verwandte Themen
  • Programmierung
  • Python
  • Programmierung
  • Datenbank
Über den Autor
Idowu Omisola (123 veröffentlichte Artikel)

Idowu hat eine Leidenschaft für alles, was smarte Technologien und Produktivität ist. In seiner Freizeit spielt er mit Programmieren und wechselt bei Langeweile aufs Schachbrett, aber er liebt es auch, ab und zu aus der Routine auszubrechen. Seine Leidenschaft, Menschen den Weg in die moderne Technik zu weisen, motiviert ihn, mehr zu schreiben.

Mehr von Idowu Omisola

Abonniere unseren Newsletter

Abonnieren Sie unseren Newsletter für technische Tipps, Rezensionen, kostenlose E-Books und exklusive Angebote!

Klicken Sie hier, um zu abonnieren