Wenn Sie Python selbst für die einfachsten Aufgaben verwenden, sind Sie sich wahrscheinlich der Bedeutung seiner Bibliotheken von Drittanbietern bewusst. Die Pandas-Bibliothek mit ihrer hervorragenden Unterstützung für DataFrames ist eine solche Bibliothek.
Sie können mehrere Dateitypen in Python DataFrames importieren und verschiedene Versionen erstellen, um verschiedene Datensätze zu speichern. Sobald Sie Ihre Daten mit DataFrames importiert haben, können Sie sie zusammenführen, um eine detaillierte Analyse durchzuführen.
Die Grundlagen angehen
Bevor Sie mit dem Zusammenführen beginnen, benötigen Sie DataFrames zum Zusammenführen. Zu Entwicklungszwecken können Sie einige Dummy-Daten zum Experimentieren erstellen.
Erstellen Sie die DataFrames in Python
Importieren Sie als ersten Schritt die Pandas-Bibliothek in Ihre Python-Datei. Pandas ist eine Bibliothek eines Drittanbieters, die DataFrames in Python verarbeitet. Du kannst den... benutzen importieren Anweisung zur Verwendung der Bibliothek wie folgt:
importieren Pandas wie pd
Sie können dem Bibliotheksnamen einen Alias zuweisen, um Ihre Codereferenzen zu verkürzen.
Sie müssen Wörterbücher erstellen, die Sie in DataFrames konvertieren können. Erstellen Sie für beste Ergebnisse zwei Wörterbuchvariablen:dict1 und dict2—um bestimmte Informationen zu speichern:
dict1 = {"Benutzeridentifikation": ["001", "002", "003", "004", "005"],
"FName": ["John", "Brad", "Ron", "Roald", "Chris"],
"LName": ["Harley", "Kohen", "Dahl", "Harrington", "Kerr Hislop"]}
dict2 = {"Benutzeridentifikation": ["001", "002", "003", "004"], "Das Alter": [15, 28, 34, 24]}
Denken Sie daran, dass Sie in beiden Wörterbuchwerten ein gemeinsames Element haben müssen, das später als Primärschlüssel für die Kombination Ihrer DataFrames dient.
Konvertieren Sie Ihre Wörterbücher in DataFrames
Um Ihre Wörterbuchwerte in DataFrames zu konvertieren, können Sie die folgende Methode verwenden:
df1 = pd. DataFrame (dict1)
df2 = pd. DataFrame (dict2)
Bei einigen IDEs können Sie die Werte innerhalb des DataFrame überprüfen, indem Sie auf die DataFrame-Funktion verweisen und drücken Ausführen/Ausführen. Es gibt viele Python-kompatible IDEs, so dass Sie diejenige auswählen können, die für Sie am einfachsten zu lernen ist.
Sobald Sie mit dem Inhalt Ihrer DataFrames zufrieden sind, können Sie mit dem Zusammenführungsschritt fortfahren.
Kombinieren von Frames mit der Merge-Funktion
Die Zusammenführungsfunktion ist die erste Python-Funktion, mit der Sie zwei DataFrames kombinieren können. Diese Funktion akzeptiert die folgenden Standardargumente:
pd.merge (Datenrahmen1, Datenrahmen2, wie= Typvonverschmelzen)
Wo:
- pd ist ein Alias für die Pandas-Bibliothek.
- verschmelzen ist die Funktion, die DataFrames zusammenführt.
- DataFrame1 und DataFrame2 sind die beiden DataFrames, die zusammengeführt werden sollen.
- wie definiert den Zusammenführungstyp.
Einige zusätzliche optionale Argumente sind verfügbar, die Sie verwenden können, wenn Sie eine komplexe Datenstruktur haben.
Sie können verschiedene Werte für den how-Parameter verwenden, um die Art der durchzuführenden Zusammenführung zu definieren. Diese Arten von Zusammenführungen werden Ihnen vertraut sein, wenn Sie sie kennen verwendete SQL, um Datenbanktabellen zu verbinden.
Linke Zusammenführung
Der linke Zusammenführungstyp behält die Werte des ersten DataFrame bei und ruft die übereinstimmenden Werte aus dem zweiten DataFrame ab.
Rechts zusammenführen
Der richtige Zusammenführungstyp behält die Werte des zweiten DataFrame bei und ruft die übereinstimmenden Werte aus dem ersten DataFrame ab.
Innere Verschmelzung
Der innere Zusammenführungstyp behält die übereinstimmenden Werte aus beiden DataFrames bei und entfernt nicht übereinstimmende Werte.
Äußere Verschmelzung
Der äußere Zusammenführungstyp behält alle übereinstimmenden und nicht übereinstimmenden Werte bei und konsolidiert die DataFrames zusammen.
So verwenden Sie die Concat-Funktion
Das konkat Die Funktion ist eine flexible Option im Vergleich zu einigen anderen Merge-Funktionen von Python. Mit der concat-Funktion können Sie DataFrames vertikal und horizontal kombinieren.
Der Nachteil bei der Verwendung dieser Funktion besteht jedoch darin, dass alle nicht übereinstimmenden Werte standardmäßig verworfen werden. Wie einige andere verwandte Funktionen hat diese Funktion einige Argumente, von denen nur wenige für eine erfolgreiche Verkettung wesentlich sind.
concat (Datenrahmen, Achse=0, Join='äußere'/’innere’)
Wo:
- konkat ist die Funktion, die DataFrames verbindet.
- Datenrahmen ist eine Folge von zu verkettenden DataFrames.
- Achse stellt die Richtung der Verkettung dar, wobei 0 horizontal und 1 vertikal ist.
- beitreten gibt entweder einen äußeren oder einen inneren Join an.
Mit den beiden oben genannten DataFrames können Sie die concat-Funktion wie folgt ausprobieren:
# Definieren Sie die Datenrahmen in einem Listenformat
df_merged_concat = pd.concat([df1, df2])
# die Ergebnisse der Concat-Funktion ausgeben
drucken(df_merged_concat)
Das Fehlen der Achsen- und Join-Argumente im obigen Code kombiniert die beiden Datensätze. Die resultierende Ausgabe enthält alle Einträge, unabhängig vom Übereinstimmungsstatus.
Ebenso können Sie zusätzliche Argumente verwenden, um die Richtung und die Ausgabe der concat-Funktion zu steuern.
So steuern Sie die Ausgabe mit allen übereinstimmenden Einträgen:
# Verketten aller übereinstimmenden Werte zwischen den beiden Datenrahmen basierend auf ihren Spalten
df_merged_concat = pd.concat([df1, df2], Achse=1, Join = 'innere')
drucken(df_merged_concat)
Das Ergebnis enthält nur alle übereinstimmenden Werte zwischen den beiden DataFrames.
DataFrames mit Python zusammenführen
DataFrames sind aufgrund ihrer Flexibilität und Funktionalität ein wesentlicher Bestandteil von Python. Aufgrund ihrer vielseitigen Einsatzmöglichkeiten können Sie sie ausgiebig einsetzen, um eine Vielzahl von Aufgaben mit größter Leichtigkeit zu erledigen.
Wenn Sie noch etwas über Python DataFrames lernen, versuchen Sie, einige Excel-Dateien zu importieren, und kombinieren Sie sie dann mit verschiedenen Ansätzen.