Große Datenbestände sind chaotisch, insbesondere wenn Sie sie von Websites, Servern oder anderen Datenquellen abrufen müssen.

UI-basierte Anwendungen wie MS Excel eignen sich gut für den Umgang mit einfachen Datensätzen, können aber Probleme haben, wenn die Daten größer werden. Dies ist ein guter Grund für Sie, auf Python umzusteigen, um komplexere datenbasierte Operationen durchzuführen.

Pandas, die Drittanbieter-Bibliothek von Python, trägt wesentlich dazu bei, dass Sie Ihre vorhandenen Datensätze schnell sortieren können. Wenn Sie Ihre Daten in Python sortieren möchten, werden in diesem Artikel einige Möglichkeiten zum Erreichen dieser Aufgabe beschrieben.

Voraussetzungen für die Verwendung von Python zum Sortieren von Daten

Bevor Sie Ihre Daten in Python sortieren, müssen Sie einige Voraussetzungen erfüllen:

  • Laden Sie eine Python-IDE herunter. Sie können eine verwenden Python-kompatible IDE, wie unter anderem Jupyter Notebook, PyCharm und Spyder. Jedes davon ist mit allen Python-Versionen kompatibel.
  • instagram viewer
  • Panda installieren. Sie benötigen das Pandas-Paket, das Sie können mit PIP installieren oder Ihre bevorzugte Methode.
  • Beispieldatensatz. Laden Sie ein Beispieldatensatz um die aufgeführten Codes zu üben. Alternativ können Sie diese Verfahren auf Ihre exklusiven Daten anwenden.

Importieren der Pandas-Bibliothek in Python

Pandas ist eine Python-Bibliothek eines Drittanbieters, mit der Sie Excel, CSV und andere Datenformate verarbeiten können.

Um mit einer Beispiel-Excel-Datei zu arbeiten, importieren Sie zunächst die Pandas-Bibliothek. Danach verwenden Sie die import-Prozedur, um die Excel-Daten in Python einzulesen.

So importieren Sie die Bibliothek

importieren Pandas wie pd

Erstellen Sie einen neuen DataFrame, um die Excel-Daten zu laden

Datei = "Beispiel – Superstore.xls"
df = pd.read_excel (Datei)
df.Kopf()

Wo:

  • df ist ein DataFrame-Objekt, das die importierten Daten speichert.
  • pd ist ein Alias ​​für die Pandas-Bibliothek.
  • read_excel ist eine Methode, um die Excel-Datei in Python einzulesen.
  • Datei ist ein Pfad zur Excel-Datei.
  • Kopf ist eine Methode, die die ersten fünf Zeilen aus dem DataFrame zurückgibt.

Sobald Ihr Programm die Daten geladen hat, können Sie die vielen verfügbaren DataFrame-Methoden verwenden, um sie auf verschiedene Arten zu sortieren.

1. Sortieren nach einer einzelnen Spalte in einem DataFrame

Da Ihre Daten viele Zeilen und Spalten enthalten, möchten Sie die Daten häufig basierend auf einer bestimmten Spalte oder Spalten sortieren.

Python sortiert die Daten standardmäßig in aufsteigender Reihenfolge. Wenn Sie die Sortierreihenfolge ändern möchten, müssen Sie dies explizit in Ihrem Code erwähnen.

Nach einer einzelnen Spalte sortieren (aufsteigende Reihenfolge)

df.sort_values ​​(nach = "Kundennummer")

Nach einer einzelnen Spalte sortieren (absteigende Reihenfolge)

Stellen Sie die ein aufsteigend Parameter zu FALSCH, um Ihre Spalte in absteigender Reihenfolge zu sortieren.

df.sort_values ​​(nach = "Kundennummer", aufsteigend=False)

Wo:

  • df ist ein DataFrame-Objekt, das die Daten enthält.
  • Sortierwerte ist eine Methode zum Sortieren nach Datenwerten.
  • durch ist ein Parameter, um den Spaltennamen zu definieren.
  • aufsteigend ist ein Parameter zum Definieren der Sortierreihenfolge.

2. Sortieren mehrerer Spalten in einem DataFrame

Wenn Ihre Anforderungen es erfordern, können Sie Ihre DataFrames auch nach mehreren Spalten gleichzeitig sortieren. In einem solchen Szenario müssen Sie die Spaltenreferenzen in einer Liste definieren.

Nach mehreren Spalten aufsteigend sortieren

df.sort_values ​​(nach = ["Kundennummer", "Stadt"])

Nach mehreren Spalten absteigend sortieren

Verwenden Sie die Funktion aufsteigend = Falsch um Ihre Spalten in absteigender Reihenfolge zu sortieren. Denken Sie daran, dass Sie die Namen der Spalten innerhalb einer Liste angeben müssen, um sie gleichzeitig zu sortieren.

df.sort_values ​​(nach = ["Kundennummer", "Stadt"], aufsteigend = False)

Sortieren nach mehreren Spalten in unterschiedlichen Sortierreihenfolgen

Was passiert, wenn Sie die Grundlagen des Sortierens aus dem Weg geräumt haben, wenn Sie eine Spalte in absteigender Reihenfolge und eine andere in aufsteigender Reihenfolge sortieren möchten? Sie müssen Ihren Code leicht anpassen, um diese Anforderungen zu integrieren.

Zum Beispiel zum Sortieren der Region und Stadt Spalten in absteigender bzw. aufsteigender Reihenfolge:

df.sort_values ​​(nach = ["Region", "Stadt"], aufsteigend = [Falsch, Wahr])

Die Erklärung dieses Codes ist einfach; Sie definieren den DataFrame-Namen und übergeben die Sortierwerte Funktion zusammen mit den Spaltennamen in einer Liste. Du solltest benutzen Boolesch Werte, um die Sortierreihenfolge anzugeben.

Wenn Sie die Funktion so aufrufen, bedeutet dies, dass Python zuerst nach der Region-Spalte des DataFrames in absteigender Reihenfolge sortiert. Dann werden Zeilen mit einer identischen Region in aufsteigender Reihenfolge weiter nach der Spalte „Stadt“ sortiert.

3. So sortieren Sie Spalten in einem DataFrame nach Index

Die Indexvariable ist der Standardwert, der jeder Zeile in einem Python-Datenrahmen zugewiesen wird. Sie können die Indexwerte definieren oder Python selbst einen Indexwert setzen lassen.

Um die Daten nach ihrem Indexwert zu sortieren, können Sie die verwenden sort_index Funktion. Diese Funktion sortiert basierend auf dem Index und nicht auf Werten, die im ursprünglichen Dataset enthalten sind.

df.sort_index()

Wie bei sort_values ​​können Sie eine übergeben aufsteigend Parameter, um die Richtung der Sortierung anzugeben. Übergeben Sie beispielsweise einen Wert von FALSCH So sortieren Sie die Daten in absteigender Reihenfolge:

df.sort_index (aufsteigend = FALSCH)

4. Sortieren von Spalten in einem DataFrame anstelle von Zeilen

Anstatt die Zeilen in einem DataFrame zu sortieren, können Sie seine Spalten sortieren. Sie können dies tun, indem Sie die Methode sort_index aufrufen und ihr eine übergeben Achse Parameter mit einem Wert von 1:

df.sort_index (Achse=1)

Dieser Schritt sortiert den DataFrame nach seinen Spalten in aufsteigender Reihenfolge. Um die Spalten des DataFrames in absteigender Reihenfolge zu sortieren, können Sie die Sortierreihenfolge in Ihrem Sortierschritt angeben.

df.sort_index (axis=1, aufsteigend = FALSCH)

5. Ändern des DataFrame beim Sortieren

Die beiden Sortiermethoden funktionieren, indem sie eine Kopie der Originaldaten in ihrem neu sortierten Zustand zurückgeben. Um Speicherplatz zu sparen oder einfach prägnanteren Code zu schreiben, können Sie stattdessen die ursprünglichen DataFrame-Daten ändern. Jede Methode akzeptiert eine an Ort und Stelle boolescher Parameter, der die Daten modifiziert, anstatt eine modifizierte Kopie zurückzugeben.

df.sort_values ​​(nach = ["Kundennummer", "Stadt"], aufsteigend = False, an Ort und Stelle = True)

Lernen, Daten in Python zu sortieren

Python repliziert viele der integrierten Funktionen von Excel mit ein paar Zeilen Code. Von Sortierverfahren bis hin zum Erstellen aufwändiger Pivot-Tabellen für Ihre Daten, Sie nennen es, und Sie können es in Python tun.

Wenn Sie Python noch nicht kennen und die Grundlagen lernen, werden diese Schritte Ihre Programmierkenntnisse relativ einfach verbessern.