Um einen Datensatz zu analysieren, müssen Sie die Daten zunächst verstehen. Manchmal haben Sie möglicherweise keine Vorkenntnisse über einen Datensatz, was Sie daran hindert, das Beste daraus zu machen. Als Datenanalyst können Sie mithilfe der explorativen Datenanalyse (EDA) vor einer eingehenden Analyse Kenntnisse über Ihren Datensatz gewinnen.

Die explorative Datenanalyse (EDA) untersucht einen Datensatz, um aussagekräftige Erkenntnisse zu gewinnen. Der Prozess der Durchführung von EDA umfasst das Abfragen von Informationen über die Struktur und den Inhalt eines Datensatzes.

Installieren des Gota-Pakets

Das Gota-Paket ist das beliebteste für Datenanalyse im Gehen; es ist wie die Python-Pandas-Paket aber für gehen. Das Gota-Paket enthält viele Methoden zum Analysieren von Datensätzen und zum Lesen von JSON-, CSV- und HTML-Formaten.

Führen Sie diesen Befehl auf Ihrem Terminal in dem Verzeichnis aus, in dem Sie eine Go-Moduldatei initialisiert haben:

gehen Holen Sie sich -u github.com/gehen-habe/habe
instagram viewer

Der Befehl installiert Gota im lokalen Verzeichnis, damit Sie das Paket importieren können, um es zu verwenden.

Genau wie Pandas unterstützt Gota Serien- und Datenrahmenoperationen. Das Gota-Paket enthält zwei Unterpakete: das Paket series und das Paket dataframe. Sie können je nach Bedarf entweder eine oder beide importieren.

importieren (
"github.com/gehen-gota/gota/Serie"
"github.com/gehen-gota/gota/dataframe"
)

Lesen eines Datensatzes mit dem Gota-Paket

Sie können jede beliebige CSV-Datei verwenden, aber die folgenden Beispiele zeigen Ergebnisse aus ein Kaggle-Datensatz, die Preisdaten für Laptops enthält.

Mit Gota können Sie CSV-, JSON- und HTML-Dateiformate lesen, um Datenrahmen mit dem zu erstellen Lesen Sie CSV, Lesen Sie JSON, und Lesen Sie HTML Methoden. So laden Sie eine CSV-Datei in ein Datenrahmenobjekt:

Datei, err := os. Open("/Pfad/zur/csv-Datei.csv")

wenn äh != Null {
fmt. Println("Fehler beim Öffnen der Datei")
}

dataFrame := Datenrahmen. CSV lesen (Datei)
fmt. Println (dataFrame)

Du kannst den... benutzen Offen Methode der os Paket, um eine CSV-Datei zu öffnen. Die ReadCSV-Methode liest das Dateiobjekt und gibt ein Datenrahmenobjekt zurück.

Wenn Sie dieses Objekt drucken, erfolgt die Ausgabe in Tabellenform. Sie können das Dataframe-Objekt mit den verschiedenen Methoden, die Gota bereitstellt, weiter manipulieren.

Das Objekt druckt nur einige der Spalten, wenn ein Datensatz mehr als einen festgelegten Wert hat.

Abrufen der Dimension des Datensatzes

Die Dimensionen eines Datenrahmens sind die Anzahl der Zeilen und Spalten, die er enthält. Sie können diese Abmessungen mit abrufen Dimmt -Methode des Datenrahmenobjekts.

Var Zeilen, Spalten = dataFrame. Dims()

Ersetzen Sie eine der Variablen durch einen Unterstrich, um nur die andere Dimension abzurufen. Sie können die Anzahl der Zeilen und Spalten auch einzeln über abfragen Nr und Ncol Methoden.

Var Zeilen = Datenrahmen. Nummer()
Var Spalten = Datenrahmen. Ncol()

Abrufen der Datentypen von Spalten

Sie müssen die zusammengesetzten Datentypen in den Spalten eines Datasets kennen, um es zu analysieren. Diese können Sie mit abrufen Typen Methode Ihres Datenrahmenobjekts:

Var Typen = Datenrahmen. Typen()
fmt. Println (Typen)

Die Types-Methode gibt ein Segment zurück, das die Datentypen der Spalte enthält:

Abrufen der Spaltennamen

Sie benötigen die Spaltennamen, um bestimmte Spalten für Operationen auszuwählen. Du kannst den... benutzen Namen Methode, um sie abzurufen.

Var Spaltennamen := Datenrahmen. Namen()
fmt. Println (Spaltennamen)

Die Names-Methode gibt einen Teil der Spaltennamen zurück.

Suche nach fehlenden Werten

Möglicherweise haben Sie ein Dataset, das Null- oder nicht numerische Werte enthält. Sie können nach solchen Werten suchen, indem Sie das verwenden HasNaN und IsNaN Methoden eines Serienobjekts:

aCol := dataFrame. Col("display_size")
Var hasNull = aCol. HasNaN()
Var isNotNumber = aCol. IstNaN()

HasNan prüft, ob eine Spalte Null-Elemente enthält. IsNaN gibt einen Teil von booleschen Werten zurück, der angibt, ob jeder Wert in der Spalte eine Zahl ist.

Durchführung einer deskriptiven statistischen Analyse

Deskriptive statistische Analyse hilft Ihnen, die Verteilung numerischer Spalten zu verstehen. Verwendung der Beschreiben Methode können Sie eine deskriptive statistische Analyse Ihres Datensatzes erstellen:

Beschreibung := Datenrahmen. Beschreiben()
fmt. Println (Beschreibung)

Die Describe-Methode gibt Metriken wie Mittelwert, Standardabweichung und Maximalwerte von Spalten in einem Dataset zurück. Er fasst diese tabellarisch zusammen.

Sie können auch spezifisch sein und sich auf Spalten und Metriken konzentrieren, indem Sie eine bestimmte Spalte auswählen und dann die gewünschte Metrik abfragen. Sie sollten zuerst die Reihe abrufen, die eine bestimmte Spalte darstellt, und dann ihre Methoden wie folgt verwenden:

aCol := dataFrame. Col("display_size")
Var Mittelwert = aCol. Bedeuten()
Var Median = aCol. Median()
Var Minimum = aCol. Mindest()
Var Standardabweichung = aCol. StdDev()
Var Maximum = aCol. Max()
Var Quantile25 = aCol. Quantil(25.0)

Diese Methoden spiegeln die Ergebnisse der deskriptiven statistischen Analyse wider, die Describe durchführt.

Abrufen der Elemente in einer Spalte

Eine der letzten Aufgaben, die Sie ausführen möchten, besteht darin, die Werte in einer Spalte zu überprüfen, um einen allgemeinen Überblick zu erhalten. Du kannst den... benutzen Aufzeichnungen -Methode, um die Werte einer Spalte anzuzeigen.

aCol := dataFrame. Col("Marke")
fmt. Println (aCol. Aufzeichnungen())

Diese Methode gibt ein Segment von Zeichenfolgen zurück, das die Werte in Ihrer ausgewählten Spalte enthält:

Exportieren eines Gota-Datenrahmens in eine Datei

Wenn Sie sich dafür entscheiden, weiter zu gehen und das Gota-Paket für die vollständige Datenanalyse zu verwenden, müssen Sie Daten in Dateien speichern. Du kannst den... benutzen CSV schreiben und WriteJSON Methoden des Datenrahmens zum Exportieren von Dateien. Die Methoden nehmen eine Datei auf, die Sie mit der erstellen os Pakete Schaffen Methode.

So können Sie einen Datenrahmen mit dem Gota-Paket exportieren.

dataFrame := Datenrahmen. CSV lesen (Datei)
Ausgabedatei, err := os. Create("ausgabe.csv")

wenn äh != Null {
Protokoll. Fatal (äh)
}

Fehler = Datenrahmen. WriteCSV (Ausgabedatei)

wenn äh != Null {
Protokoll. Fatalln("Fehler beim Schreiben des Datenrahmeninhalts in die Datei")
}

Das Datenrahmen Variable ist eine Darstellung des Datenrahmens. Wenn Sie die verwenden Schaffen Methode der os package erstellt es eine neue, leere Datei mit dem angegebenen Namen und gibt die Datei zurück. Die WriteCSV-Methode übernimmt die Dateiinstanz und gibt einen Fehler oder zurück Null wenn kein Fehler vorliegt.

Explorative Datenanalyse ist wichtig

Ein Verständnis von Daten und Datensätzen ist für Datenanalysten und Spezialisten für maschinelles Lernen unerlässlich. Es ist ein kritischer Vorgang in ihrem Arbeitszyklus, und die explorative Datenanalyse ist eine der Techniken, die sie verwenden, um dies zu erreichen.

Das Gota-Paket hat noch mehr zu bieten. Sie können es für verschiedene Data-Wrangling-Funktionen auf die gleiche Weise verwenden, wie Sie die Python Pandas-Bibliothek für die Datenanalyse verwenden würden. Gota unterstützt jedoch nicht ganz so viele Funktionen wie Pandas.