Nutzen Sie die PandasAI-Python-Bibliothek, um die Leistungsfähigkeit künstlicher Intelligenz und großer Sprachmodelle für die Durchführung von Datenanalyseaufgaben zu nutzen.

Pandas ist die am weitesten verbreitete Bibliothek zur Bearbeitung von Datensätzen und Datenrahmen. Dies ist seit langem die Norm. Doch mit der Weiterentwicklung der künstlichen Intelligenz wird eine neue Open-Source-Bibliothek namens PandasAI entwickelt, die Pandas generative KI-Funktionen hinzufügt.

PandasAI ersetzt Pandas nicht. Stattdessen bietet es seine generativen KI-Fähigkeiten. Auf diese Weise können Sie eine Datenanalyse durchführen, indem Sie mit PandasAI chatten. Anschließend abstrahiert es, was im Hintergrund geschieht, und liefert Ihnen die Ausgabe Ihrer Abfrage.

PandasAI installieren

PandasAI ist über PyPI (Python Package Index) verfügbar. Erstellen Sie eine neue virtuelle Umgebung wenn Sie eine lokale IDE verwenden. Dann Verwenden Sie den Pip-Paketmanager um es zu installieren.

Pip Pandasai installieren
instagram viewer

Wenn Sie Google Colab verwenden, kann ein Abhängigkeitskonfliktfehler ähnlich dem unten gezeigten auftreten.

Führen Sie kein Downgrade der IPython-Version durch. Starten Sie einfach Ihre Laufzeit neu und führen Sie den Codeblock erneut aus. Dadurch wird das Problem behoben.

Der vollständige Quellcode ist in a verfügbar GitHub-Repository.

Den Beispieldatensatz verstehen

Der Beispieldatensatz, den Sie mit PandasAI bearbeiten, ist der Datensatz „California Housing Prices“ von Kaggle. Dieser Datensatz enthält Informationen über Wohnraum aus der Volkszählung von 1990 in Kalifornien. Es gibt zehn Spalten, die Statistiken über diese Häuser liefern. Die Datenkarte, mit der Sie mehr über diesen Datensatz erfahren können, finden Sie unter Kaggle. Unten sind die ersten fünf Zeilen des Datensatzes.

Jede Spalte repräsentiert eine einzelne Statistik eines Hauses.

PandasAI mit dem Large Language Model verbinden

Um PandasAI mit einem zu verbinden großes Sprachmodell (LLM) Wie bei OpenAI benötigen Sie Zugriff auf den API-Schlüssel. Um eines zu erhalten, fahren Sie mit dem fort OpenAI-Plattform. Melden Sie sich dann bei Ihrem Konto an. Wählen API unter der Optionsseite, die als nächstes erscheint.

Klicken Sie anschließend auf Ihr Profil und wählen Sie das aus API-Schlüssel anzeigen Möglichkeit. Klicken Sie auf der Seite, die als nächstes erscheint Erstellen Sie einen neuen geheimen Schlüssel Taste. Benennen Sie abschließend Ihren API-Schlüssel.

OpenAI generiert Ihren API-Schlüssel. Kopieren Sie es, da Sie es benötigen, wenn Sie PandasAI mit OpenAI verbinden. Stellen Sie sicher, dass Sie den Schlüssel geheim halten, da jeder, der Zugriff darauf hat, in Ihrem Namen Anrufe bei OpenAI tätigen kann. OpenAI belastet dann Ihr Konto mit den Anrufen.

Nachdem Sie nun den API-Schlüssel haben, erstellen Sie ein neues Python-Skript und fügen Sie den folgenden Code ein. Sie müssen diesen Code nicht ändern, da Sie die meiste Zeit darauf aufbauen.

importieren Pandas als pd
aus Pandasai importieren PandasAI

# Durch Ihren Datensatz oder Datenrahmen ersetzen
df = pd.read_csv(„/content/housing.csv“)

# Instanziieren Sie ein LLM
aus pandasai.llm.openai importieren OpenAI
llm = OpenAI(api_token=„Ihr API-Token“)

pandas_ai = PandasAI(llm)

Der obige Code importiert sowohl PandasAI als auch Pandas. Anschließend wird ein Datensatz gelesen. Schließlich wird das OpenAI LLM instanziiert.

Sie können nun mit Ihren Daten kommunizieren.

Einfache Aufgaben mit PandasAI ausführen

Um Ihre Daten abzufragen, übergeben Sie Ihren Datenrahmen und Ihre Eingabeaufforderung an die Instanz der PandasAI-Klasse. Beginnen Sie mit dem Drucken der ersten fünf Zeilen Ihres Datensatzes.

pandas_ai (df, prompt=„Was sind die ersten fünf Zeilen des Datensatzes?“)

Die Ausgabe der obigen Eingabeaufforderung lautet wie folgt:

Diese Ausgabe ist identisch mit der der vorherigen Datensatzübersicht. Dies zeigt, dass PandasAI korrekte Ergebnisse liefert und zuverlässig ist.

Überprüfen Sie dann die Anzahl der in Ihrem Datensatz vorhandenen Spalten.

pandas_ai (df, prompt=„Wie viele Spalten enthält der Datensatz?“ ')

Es wird 10 zurückgegeben, was der korrekten Anzahl von Spalten im Datensatz „California Housing“ entspricht.

Überprüfen, ob im Datensatz Werte fehlen.

pandas_ai (df, prompt=„Sind irgendwelche fehlenden Werte im Datensatz vorhanden?“)

PandasAI gibt das zurück total_schlafzimmer In der Spalte fehlen 207 Werte, was wiederum richtig ist.

Es gibt viele einfache Aufgaben, die Sie mit PandasAI erledigen können. Sie sind nicht auf die oben genannten beschränkt.

Durchführen komplexer Abfragen mit PandasAI

PandasAI unterstützt nicht nur einfache Aufgaben. Sie können damit auch komplexe Abfragen des Datensatzes durchführen. Wenn Sie beispielsweise im Wohnungsdatensatz die Anzahl der Häuser ermitteln möchten, die sich auf einem befinden Insel, einen Wert von mehr als 100.000 Dollar haben und über mehr als 10 Zimmer verfügen, können Sie die Eingabeaufforderung nutzen unter.

pandas_ai (df, prompt= „Wie viele Häuser haben einen Wert von mehr als 100.000?“
„Befinden sich auf einer Insel und die Gesamtzahl der Schlafzimmer beträgt mehr als 10?“)

Die korrekte Ausgabe ist fünf. Dies ist das gleiche Ergebnis, das PandasAI ausgibt.

Das Schreiben und Debuggen komplexer Abfragen kann für einen Datenanalysten einige Zeit in Anspruch nehmen. Die obige Eingabeaufforderung benötigt nur zwei Zeilen natürlicher Sprache, um dieselbe Aufgabe zu erfüllen. Sie müssen sich nur genau darüber im Klaren sein, was Sie erreichen möchten, und PandasAI kümmert sich um den Rest.

Zeichnen von Diagrammen mit PandasAI

Diagramme sind ein wesentlicher Bestandteil jedes Datenanalyseprozesses. Es hilft den Datenanalysten, die Daten auf benutzerfreundliche Weise zu visualisieren. PandasAI verfügt auch über eine Funktion zum Zeichnen von Diagrammen. Sie müssen nur den Datenrahmen und die Anweisung übergeben.

Erstellen Sie zunächst ein Histogramm für jede Spalte im Datensatz. Dies wird Ihnen helfen, die Verteilung der Variablen zu visualisieren.

pandas_ai (df, prompt= „Zeichnen Sie ein Histogramm für jede Spalte im Datensatz“)

Die Ausgabe ist wie folgt:

PandasAI konnte das Histogramm aller Spalten zeichnen, ohne deren Namen in der Eingabeaufforderung übergeben zu müssen.

PandasAI kann auch Diagramme zeichnen, ohne dass Sie explizit angeben müssen, welches Diagramm verwendet werden soll. Beispielsweise möchten Sie möglicherweise die Korrelation der Daten im Wohnungsdatensatz herausfinden. Um dies zu erreichen, können Sie eine Eingabeaufforderung wie folgt übergeben:

pandas_ai (df, prompt= „Zeichnen Sie die Korrelation im Datensatz grafisch dar“)

PandasAI stellt eine Korrelationsmatrix wie unten dargestellt dar:

Die Bibliothek wählt eine Heatmap aus und zeichnet eine Korrelationsmatrix auf.

Übergabe mehrerer Datenrahmen an die PandasAI-Instanz

Die Arbeit mit mehreren Datenrahmen kann schwierig sein. Besonders für jemanden, der neu in der Datenanalyse ist. PandasAI schließt diese Lücke, da Sie lediglich beide Datenrahmen übergeben und Eingabeaufforderungen verwenden müssen, um die Daten zu manipulieren.

Erstellen Sie zwei Datenrahmen mit Pandas.

Employees_data = {
'Angestellten ID': [1, 2, 3, 4, 5],
'Name': ['John', „Emma“, „Liam“, „Olivia“, 'Wilhelm'],
'Abteilung': [„HR“, 'Verkauf', 'ES', 'Marketing', 'Finanzen']
}

Gehälter_Daten = {
'Angestellten ID': [1, 2, 3, 4, 5],
'Gehalt': [5000, 6000, 4500, 7000, 5500]
}

Mitarbeiter_df = pd. DataFrame (employees_data)
Gehälter_df = pd. DataFrame (salaries_data)

Sie können PandasAI eine Frage stellen, die sich über beide Datenrahmen erstreckt. Sie müssen lediglich beide Datenrahmen an die PandasAI-Instanz übergeben.

pandas_ai([employees_df, Gehälter_df], „Welcher Mitarbeiter hat das höchste Gehalt?“)

Es kehrt zurück Olivia Das ist wiederum die richtige Antwort.

Die Durchführung einer Datenanalyse war noch nie einfacher. Mit PandasAI können Sie mit Ihren Daten chatten und diese ganz einfach analysieren.

Die Technologie verstehen, die PandasAI antreibt

PandasAI vereinfacht den Prozess der Datenanalyse und spart so viel Zeit für Datenanalysten. Aber es abstrahiert, was im Hintergrund passiert. Sie müssen sich mit generativer KI vertraut machen, damit Sie einen Überblick darüber erhalten, wie PandasAI unter der Haube funktioniert. Dies wird Ihnen auch dabei helfen, mit den neuesten Innovationen im Bereich der generativen KI Schritt zu halten.