Python als Sprache ist über alle Maßen wertvoll, besonders wenn man mit strukturierten Daten arbeiten möchte. Da viele Daten in Excel-Dateien gespeichert werden, ist es unerlässlich, mehrere Dateien zu konsolidieren, um Zeit und Mühe zu sparen.
Mit Python können Sie genau das tun; Unabhängig davon, wie viele Excel-Dateien Sie kombinieren möchten, können Sie dies relativ einfach tun. Angesichts der Bandbreite an Bibliotheken und Ressourcen von Drittanbietern können Sie die facettenreichen Tools von Python importieren und verwenden, um Ihre Gebote abzugeben.
In diesem Handbuch müssen Sie die Pandas-Bibliotheken installieren und verwenden, um Daten in Python zu importieren, bevor Sie sie konsolidieren.
Installieren Sie Pandas-Bibliotheken in Python
Pandas ist eine Bibliothek eines Drittanbieters, die Sie in Python installieren können. Einige IDEs haben bereits Pandas installiert.
Wenn Sie eine verwenden IDE-Version das nicht mit vorinstallierten Pandas geliefert wird, seien Sie versichert, Sie können es direkt in Python installieren.
So installieren Sie Pandas:
Pandas installieren
Wenn Sie Jupyter Notebook verwenden, können Sie Pandas direkt mit installieren PIP-Befehl. Wenn Sie Jupyter mit Anaconda installiert haben, besteht meistens eine hohe Wahrscheinlichkeit, dass Pandas bereits zur direkten Verwendung verfügbar sind.
Wenn Sie Pandas nicht aufrufen können, können Sie sie mit dem obigen Befehl direkt installieren.
Kombinieren von Excel-Dateien mit Python
Zuerst müssen Sie an Ihrem bevorzugten Ort einen Ordner mit allen Excel-Dateien erstellen. Sobald der Ordner fertig ist, können Sie mit dem Schreiben des Codes zum Importieren der Bibliotheken beginnen.
In diesem Code verwenden Sie zwei Variablen:
- Pandas: Die Pandas-Bibliothek stellt die Datenrahmen zum Speichern von Excel-Dateien bereit.
- Betriebssystem: Die Bibliothek ist nützlich, um Daten aus dem Ordner Ihrer Maschine zu lesen
Um diese Bibliotheken zu importieren, verwenden Sie diese Befehle:
Pandas als pd importieren
Betriebssystem importieren
- Importieren: Python-Syntax zum Importieren der Bibliotheken in Python
- Pandas: Name der Bibliothek
- pd: Der Bibliothek gegebener Alias
- Betriebssystem: Eine Bibliothek für den Zugriff auf den Systemordner
Nachdem Sie die Bibliotheken importiert haben, erstellen Sie zwei Variablen, um den Eingabe- und Ausgabedateipfad zu speichern. Der Eingabedateipfad wird benötigt, um auf den Ordner der Dateien zuzugreifen. Der Ausgabedateipfad ist erforderlich, da die kombinierte Datei dorthin exportiert wird.
Wenn Sie Python verwenden, stellen Sie sicher, dass Sie den Backslash in einen Forward-Slash (\ zu /)
input_file_path = "C:/Benutzer/gaurav/OneDrive/Desktop/Excel-Dateien/"
output_file_path = "C:/Benutzer/gaurav/OneDrive/Desktop/"
Anhängen der / am Ende auch, um die Wege zu vervollständigen.
Die Dateien des Ordners sind in einer Liste verfügbar. Erstellen Sie mithilfe von eine Liste zum Speichern aller Dateireferenzen des Eingabeordners listdir Funktion aus der Betriebssystem Bücherei.
Wenn Sie sich nicht sicher sind, welche Funktionen in einer Bibliothek verfügbar sind, können Sie die verwenden dir Funktion mit dem Bibliotheksnamen. Um beispielsweise die genaue Version der listdir-Funktion zu überprüfen, können Sie den Befehl wie folgt verwenden:
Verzeichnis (Betriebssystem)
Die Ausgabe besteht aus allen zugehörigen Funktionen, die in der Betriebssystembibliothek verfügbar sind. Die Funktion listdir ist eine der vielen Funktionen, die in dieser Bibliothek verfügbar sind.
Erstellen Sie eine neue Variable zum Speichern der Eingabedateien aus dem Ordner.
excel_file_list = os.listdir (Eingabe_Datei_Pfad)
Drucken Sie diese Variable, um die Namen der im Ordner gespeicherten Dateien anzuzeigen. Alle im Ordner gespeicherten Dateien werden angezeigt, sobald Sie die Druckfunktion verwenden.
drucken (excel_file_list)
Als Nächstes müssen Sie einen neuen Datenrahmen hinzufügen, um jede Excel-Datei zu speichern. Stellen Sie sich einen Datenrahmen als Container zum Speichern von Daten vor. Hier ist der Befehl zum Erstellen eines Datenrahmens.
df = pd. DataFrame()
- df: Variable zum Speichern des Werts des DataFrame
- pd: Pseudonym für die Pandas-Bibliothek
- Datenrahmen: Standard-Syntax zum Hinzufügen eines Datenrahmens
Der Eingabeordner hat drei .xlsx Dateien in diesem Beispiel. Die Dateinamen sind:
Datei1_excel.xlsx
Datei2_excel.xlsx
Datei3_excel.xlsx
Um jede Datei aus diesem Ordner zu öffnen, müssen Sie eine Schleife ausführen. Die Schleife wird für jede der Dateien in der oben erstellten Liste ausgeführt.
So können Sie es tun:
für excel_files in excel_file_list:
Als nächstes müssen die Erweiterungen der Dateien überprüft werden, da der Code nur XLSX-Dateien öffnet. Um diese Dateien zu überprüfen, können Sie eine verwenden Wenn Aussage.
Verwenden Sie die endet mit funktionieren zu diesem Zweck wie folgt:
für excel_files in excel_file_list:
if excel_files.endswith(.xlsx"):
- excel_files: Liste mit allen Dateiwerten
- endet mit: Funktion zum Überprüfen der Erweiterung der Dateien
- (".xlsx"): Dieser Zeichenfolgenwert kann sich ändern, je nachdem, wonach Sie suchen möchten
Nachdem Sie die Excel-Dateien identifiziert haben, können Sie einen neuen Datenrahmen erstellen, um die Dateien einzeln zu lesen und zu speichern.
für excel_files in excel_file_list:
if excel_files.endswith(.xlsx"):
df1 = pd.read_excel (Pfad_der_Eingabedatei+excel_Dateien)
- df1: Neuer Datenrahmen
- pd: Pandas-Bibliothek
- read_excel: Funktion zum Lesen von Excel-Dateien in der Pandas-Bibliothek
- Eingabe_Datei_Pfad: Pfad des Ordners, in dem die Dateien gespeichert sind
- excel_files: Jede Variable, die in der for-Schleife verwendet wird
Um mit dem Anhängen der Dateien zu beginnen, müssen Sie die anhängen Funktion.
für excel_files in excel_file_list:
if excel_files.endswith(.xlsx"):
df1 = pd.read_excel (Pfad_der_Eingabedatei+excel_Dateien)
df = df.anhängen (df1)
Nachdem der konsolidierte Datenrahmen fertig ist, können Sie ihn schließlich an den Ausgabespeicherort exportieren. In diesem Fall exportieren Sie den Datenrahmen in eine XLSX-Datei.
df.to_excel (Pfad der Ausgabedatei+"Konsolidierte_Datei.xlsx")
- df: Zu exportierender Datenrahmen
- nach_excel: Befehl zum Exportieren der Daten
- Pfad_der_Ausgabedatei: Pfad zum Speichern der Ausgabe definiert
- Konsolidierte_Datei.xlsx: Name der konsolidierten Datei
Schauen wir uns nun den endgültigen Code an:
#Pandas wird als Datenrahmen zur Handhabung von Excel-Dateien verwendet
pandas als pd importieren
Betriebssystem importieren# Ändern Sie den Schrägstrich von „\“ in „/“, wenn Sie Windows-Geräte verwenden
input_file_path = "C:/Benutzer/gaurav/OneDrive/Desktop/Excel-Dateien/"
output_file_path = "C:/Benutzer/gaurav/OneDrive/Desktop/"# Erstellen Sie eine Liste, um alle Dateireferenzen des Eingabeordners zu speichern, indem Sie die listdir-Funktion aus der os-Bibliothek verwenden.
#Um den Inhalt einer Bibliothek anzuzeigen (wie die listdir-Funktion können Sie die dir-Funktion auf den Bibliotheksnamen anwenden).
#Verwenden Sie dir (Bibliotheksname), um Inhalte aufzulistenexcel_file_list = os.listdir (Eingabe_Datei_Pfad)
#Drucken Sie alle im Ordner gespeicherten Dateien, nachdem Sie die Liste definiert haben
excel_datei_liste#Sobald jede Datei geöffnet ist, verwenden Sie die Append-Funktion, um mit der Konsolidierung der in mehreren Dateien gespeicherten Daten zu beginnen
#Erstellen Sie einen neuen, leeren Datenrahmen, um die Excel-Dateiimporte zu verarbeiten
df = pd. DataFrame()#Führen Sie eine for-Schleife aus, um jede Datei in der Liste zu durchlaufen
für excel_files in excel_file_list:
#Nur nach .xlsx-Suffixdateien suchen
if excel_files.endswith(.xlsx"):
# Erstellen Sie einen neuen Datenrahmen, um jede Excel-Datei aus der Liste der oben erstellten Dateien zu lesen/zu öffnen
df1 = pd.read_excel (Pfad_der_Eingabedatei+excel_Dateien)
#Hänge jede Datei an den ursprünglichen leeren Datenrahmen an
df = df.anhängen (df1)
#Endausgabe in eine Excel-Datei (xlsx) im Ausgabepfad übertragen
df.to_excel (Pfad der Ausgabedatei+"Konsolidierte_Datei.xlsx")
Verwenden von Python zum Kombinieren mehrerer Excel-Arbeitsmappen
Python's Pandas ist ein hervorragendes Tool für Anfänger und Fortgeschrittene gleichermaßen. Die Bibliothek wird ausgiebig von Entwicklern verwendet, die Python beherrschen wollen.
Selbst wenn Sie ein Anfänger sind, können Sie enorm davon profitieren, wenn Sie die Nuancen von Pandas lernen und erfahren, wie die Bibliothek in Python verwendet wird.
Mit diesen Anfängeroperationen lernst du Pandas kennen.
Lesen Sie weiter
- Programmierung
- Python
- Microsoft Excel
- Kalkulationstabelle
Gaurav Siyal hat zwei Jahre Erfahrung als Autor und hat für eine Reihe von Unternehmen für digitales Marketing und Software-Lebenszyklusdokumente geschrieben.
Abonniere unseren Newsletter
Abonnieren Sie unseren Newsletter für technische Tipps, Rezensionen, kostenlose E-Books und exklusive Angebote!
Klicken Sie hier, um sich anzumelden