Die Pandas-Bibliothek macht Python-basierte Datenwissenschaft zum Kinderspiel. Es ist eine beliebte Python-Bibliothek zum Lesen, Zusammenführen, Sortieren, Bereinigen von Daten und mehr. Obwohl Pandas einfach zu verwenden und auf Datensätze anzuwenden ist, müssen viele Datenmanipulationsfunktionen erlernt werden.
Sie können Pandas verwenden, aber es besteht eine gute Chance, dass Sie sie nicht ausreichend nutzen, um datenbezogene Probleme zu lösen. Hier ist unsere Liste wertvoller Pandas-Funktionen zur Datenmanipulation, die jeder Datenwissenschaftler kennen sollte.
Installieren Sie Pandas in Ihrer virtuellen Umgebung
Bevor wir fortfahren, stellen Sie sicher, dass Sie Pandas mit pip in Ihrer virtuellen Umgebung installieren:
pip install pandas
Importieren Sie nach der Installation Pandas oben in Ihrem Skript und fahren Sie fort.
1. Pandas. Datenrahmen
Sie nutzen Pandas. Datenrahmen() um einen DataFrame in Pandas zu erstellen. Es gibt zwei Möglichkeiten, diese Funktion zu verwenden.
Sie können einen DataFrame spaltenweise bilden, indem Sie ein Wörterbuch an die
Pandas. Datenrahmen() Funktion. Hier ist jeder Schlüssel eine Spalte, während die Werte die Zeilen sind:Pandas importieren
DataFrame = Pandas. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
drucken (DataFrame)
Die andere Methode besteht darin, den DataFrame über Zeilen hinweg zu bilden. Aber hier trennen Sie die Werte (Zeilenelemente) von den Spalten. Die Anzahl der Daten in jeder Liste (Zeilendaten) muss auch mit der Anzahl der Spalten übereinstimmen.
Pandas importieren
DataFrame = Pandas. DataFrame([[1, 4, 5], [7, 19, 13]], column= ["J", "K", "L"])
drucken (DataFrame)
2. Lesen aus und Schreiben in Excel oder CSV in Pandas
Sie können mit Pandas Excel- oder CSV-Dateien lesen oder schreiben.
Lesen von Excel- oder CSV-Dateien
So lesen Sie eine Excel-Datei:
#Ersetzen Sie example.xlsx durch Ihren Excel-Dateipfad
DataFrame = DataFrame.read_excel("example.xlsx")
So lesen Sie eine CSV-Datei:
#Ersetzen Sie example.csv durch Ihren CSV-Dateipfad
DataFrame = DataFrame.read_csv("example.csv")
Schreiben in Excel oder CSV
Das Schreiben in Excel oder CSV ist eine bekannte Panda-Operation. Und es ist praktisch, um neu berechnete Tabellen in separaten Datenblättern zu speichern.
So schreiben Sie in eine Excel-Tabelle:
DataFrame.to_excel("full_path_of_the_destination_folder/filename.xlsx")
Wenn Sie in CSV schreiben möchten:
DataFrame.to_csv("full_path_of_the_destination_folder/filename.csv")
Sie können mit Pandas auch die zentralen Tendenzen jeder Spalte in einem DataFrame berechnen.
So erhalten Sie den Mittelwert jeder Spalte:
DataFrame.mean()
Für den Median- oder Moduswert ersetzen Sie bedeuten() mit Median() oder Modus().
4. DataFrame.transform
Pandas DataFrame.transform() ändert die Werte eines DataFrame. Es akzeptiert eine Funktion als Argument.
Zum Beispiel multipliziert der folgende Code jeden Wert in einem DataFrame mit drei unter Verwendung von Pythons Lambda-Funktion:
DataFrame = DataFrame.transform (Lambda y: y*3)
drucken (DataFrame)
5. DataFrame.isnull
Diese Funktion gibt einen booleschen Wert zurück und kennzeichnet alle Zeilen mit Nullwerten als Wahr:
DataFrame.isnull()
Das Ergebnis des obigen Codes kann bei größeren Datensätzen schwer zu lesen sein. So können Sie die isnull().sum() Funktion statt. Dies gibt eine Zusammenfassung aller fehlenden Werte für jede Spalte zurück:
DataFrame.isnull().sum()
6. Datenrahmen.info
Der die Info() Funktion ist ein wesentliche Panda-Operation. Stattdessen wird die Zusammenfassung der nicht fehlenden Werte für jede Spalte zurückgegeben:
DataFrame.info()
7. DataFrame.describe
Der beschreiben() -Funktion gibt Ihnen die zusammenfassende Statistik eines DataFrame:
DataFrame.describe()
8. DataFrame.replace
Verwendung der DataFrame.replace() -Methode in Pandas können Sie ausgewählte Zeilen durch andere Werte ersetzen.
Zum Beispiel, um ungültige Zeilen mit zu tauschen Nan:
# Stellen Sie sicher, dass Sie pip install numpy verwenden, damit dies funktioniert
numpy importieren
Pandas importieren
# Wenn Sie ein Inplace-Schlüsselwort hinzufügen und es auf True setzen, werden die Änderungen dauerhaft:
DataFrame.replace([ungültig_1, ungültig_2], numpy.nan, inplace=True)
drucken (DataFrame)
9. DataFrame.fillna
Mit dieser Funktion können Sie leere Zeilen mit einem bestimmten Wert füllen. Du kannst alles füllen Nan Zeilen in einem Datensatz mit dem Mittelwert, zum Beispiel:
DataFrame.fillna (df.mean(), inplace = True)
drucken (DataFrame)
Sie können auch spaltenspezifisch sein:
DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
drucken (DataFrame)
10. DataFrame.dropna
Der dropna() -Methode entfernt alle Zeilen, die Nullwerte enthalten:
DataFrame.dropna (inplace = True)
drucken (DataFrame)
11. DataFrame.insert
Sie können Pandas verwenden Einfügung() -Funktion, um einem DataFrame eine neue Spalte hinzuzufügen. Es akzeptiert drei Schlüsselwörter, die Spaltenname, eine Liste seiner Daten und seine Lage, das ist ein Spaltenindex.
So funktioniert das:
DataFrame.insert (Spalte = 'C', Wert = [3, 4, 6, 7], loc=0)
drucken (DataFrame)
Der obige Code fügt die neue Spalte am Nullspaltenindex ein (sie wird zur ersten Spalte).
12. DataFrame.loc
Sie können verwenden loc um die Elemente in einem bestimmten Index zu finden. So zeigen Sie beispielsweise alle Elemente in der dritten Zeile an:
DataFrame.loc[2]
13. DataFrame.pop
Mit dieser Funktion können Sie eine angegebene Spalte aus einem Pandas DataFrame entfernen.
Es akzeptiert ein Artikel -Schlüsselwort, gibt die eingeblendete Spalte zurück und trennt sie vom Rest des DataFrame:
DataFrame.pop (item= 'column_name')
drucken (DataFrame)
14. DataFrame.max, min
Die maximalen und minimalen Werte mit Pandas zu erhalten ist einfach:
DataFrame.min()
Der obige Code gibt den Mindestwert für jede Spalte zurück. Um das Maximum zu erhalten, ersetzen Sie Mindest mit max.
15. DataFrame.join
Der beitreten() Mit der Funktion von Pandas können Sie DataFrames mit unterschiedlichen Spaltennamen zusammenführen. Sie können den linken, rechten, inneren oder äußeren Join verwenden. So verknüpfen Sie einen DataFrame mit zwei anderen Links:
#Linke längere Spalten mit kürzeren verbinden
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
drucken (newDataFrame)
Um DataFrames mit ähnlichen Spaltennamen zu verbinden, können Sie sie unterscheiden, indem Sie links oder rechts ein Suffix einfügen. Tun Sie dies, indem Sie die lsuffix oder rsuffix Stichwort:
newDataFrame = df1.join([df2, rsuffix='_', how='outer')
drucken (newDataFrame)
16. DataFrame.combine
Der kombinieren() -Funktion ist praktisch, um zwei DataFrames mit ähnlichen Spaltennamen basierend auf festgelegten Kriterien zusammenzuführen. Es akzeptiert a Funktion Stichwort.
Um beispielsweise zwei DataFrames mit ähnlichen Spaltennamen nur basierend auf den Maximalwerten zusammenzuführen:
newDataFrame = df.combine (df2, numpy.minimum)
drucken (newDataFrame)
Notiz: Sie können auch eine benutzerdefinierte Auswahlfunktion definieren und einfügen numpy.minimum.
17. DataFrame.astype
Der astype() -Funktion ändert den Datentyp einer bestimmten Spalte oder eines bestimmten DataFrame.
So ändern Sie beispielsweise alle Werte in einem DataFrame in einen String:
DataFrame.astype (str)
18. DataFrame.sum
Der Summe() Die Funktion in Pandas gibt die Summe der Werte in jeder Spalte zurück:
DataFrame.sum()
Sie können die kumulierte Summe aller Artikel auch mit ermitteln cumsum ():
DataFrame.cumsum()
19. DataFrame.drop
Pandas fallen() -Funktion löscht bestimmte Zeilen oder Spalten in einem DataFrame. Sie müssen die Spaltennamen oder den Zeilenindex und eine Achse angeben, um ihn zu verwenden.
So entfernen Sie beispielsweise bestimmte Spalten:
df.drop (Spalten=['Spalte1', 'Spalte2'], Achse=0)
So löschen Sie beispielsweise Zeilen auf den Indizes 1, 3 und 4:
df.drop([1, 3, 4], Achse=0)
20. DataFrame.korr
Möchten Sie die Korrelation zwischen Integer- oder Float-Spalten finden? Pandas können Ihnen dabei helfen, dies zu erreichen korr() Funktion:
DataFrame.corr()
Der obige Code gibt einen neuen DataFrame zurück, der die Korrelationssequenz zwischen allen Integer- oder Float-Spalten enthält.
21. DataFrame.add
Der hinzufügen() Mit dieser Funktion können Sie jedem Wert in DataFrame eine bestimmte Zahl hinzufügen. Es funktioniert, indem es durch einen DataFrame iteriert und jedes Element bearbeitet.
Verwandt:So verwenden Sie For-Schleifen in Python
Um beispielsweise 20 zu jedem der Werte in einer bestimmten Spalte hinzuzufügen, die Ganzzahlen oder Gleitkommazahlen enthält:
DataFrame['interger_column'].add (20)
22. DataFrame.sub
Wie bei der Additionsfunktion können Sie auch von jedem Wert in einem DataFrame oder einer bestimmten Spalte eine Zahl subtrahieren:
DataFrame['interger_column'].sub (10)
23. DataFrame.mul
Dies ist eine Multiplikationsversion der Additionsfunktion von Pandas:
DataFrame['interger_column'].mul (20)
24. DataFrame.div
Ebenso können Sie jeden Datenpunkt in einer Spalte oder einem DataFrame durch eine bestimmte Zahl teilen:
DataFrame['interger_column'].div (20)
25. DataFrame.std
Verwendung der std() -Funktion können Sie mit Pandas auch die Standardabweichung für jede Spalte in einem DataFrame berechnen. Es funktioniert, indem es durch jede Spalte in einem Datensatz iteriert und die Standardabweichung für jede berechnet:
DataFrame.std()
26. DataFrame.sort_values
Sie können Werte auch basierend auf einer bestimmten Spalte aufsteigend oder absteigend sortieren. So sortieren Sie einen DataFrame in absteigender Reihenfolge, zum Beispiel:
newDataFrame = DataFrame.sort_values (by = "colmun_name", absteigend = True)
27. DataFrame.melt
Der schmelzen() Funktion in pandas kippt die Spalten in einem DataFrame in einzelne Zeilen. Es ist, als würde man die Anatomie eines DataFrame offenlegen. So können Sie den jeder Spalte explizit zugewiesenen Wert anzeigen.
newDataFrame = DataFrame.melt()
28. DataFrame.count
Diese Funktion gibt die Gesamtzahl der Elemente in jeder Spalte zurück:
DataFrame.count()
29. DataFrame.query
Pandas Anfrage() können Sie Elemente mit ihrer Indexnummer aufrufen. Um die Elemente in der dritten Zeile abzurufen, zum Beispiel:
DataFrame.query('4') # Rufen Sie die Abfrage für den vierten Index auf
30. DataFrame.where
Der wo() Funktion ist eine Pandas-Abfrage, die eine Bedingung zum Abrufen bestimmter Werte in einer Spalte akzeptiert. Um zum Beispiel alle Altersgruppen unter 30 von einem Das Alter Säule:
DataFrame.where (DataFrame['Alter'] < 30)
Der obige Code gibt einen DataFrame aus, der alle Altersgruppen unter 30 enthält, aber zuweist Nan in Zeilen, die die Bedingung nicht erfüllen.
Behandeln Sie Daten wie ein Profi mit Pandas
pandas ist eine Fundgrube an Funktionen und Methoden für den Umgang mit kleinen bis großen Datensätzen mit Python. Die Bibliothek ist auch praktisch zum Bereinigen, Validieren und Vorbereiten von Daten für Analysen oder maschinelles Lernen.
Sich die Zeit zu nehmen, es zu beherrschen, macht Ihr Leben als Data Scientist definitiv einfacher und es lohnt sich. Zögern Sie also nicht, alle Funktionen zu übernehmen, die Sie handhaben können.
Die Python-Standardbibliothek enthält viele Funktionen, die Sie bei Ihren Programmieraufgaben unterstützen. Erfahren Sie mehr über die nützlichsten und erstellen Sie robusteren Code.
Weiter lesen
- Programmierung
- Python
- Programmierung
- Datenbank

Idowu hat eine Leidenschaft für alles, was smarte Technologien und Produktivität ist. In seiner Freizeit spielt er mit Programmieren und wechselt bei Langeweile aufs Schachbrett, aber er liebt es auch, ab und zu aus der Routine auszubrechen. Seine Leidenschaft, Menschen den Weg in die moderne Technik zu weisen, motiviert ihn, mehr zu schreiben.
Abonniere unseren Newsletter
Abonnieren Sie unseren Newsletter für technische Tipps, Rezensionen, kostenlose E-Books und exklusive Angebote!
Klicken Sie hier, um zu abonnieren