8 Schlüsselfaktoren, die beim Testen von KI-Chatbots auf Genauigkeit zu berücksichtigen sind

Sie können verschiedene KI-Chatbots testen, um herauszufinden, welcher am besten funktioniert. Aber wie soll man das machen? Hier sind einige Schlüsselfaktoren, die es zu berücksichtigen gilt.

KI ist weit davon entfernt, irrelevante, inkohärente Ergebnisse zu produzieren. Moderne Chatbots verwenden fortschrittliche Sprachmodelle, die neben anderen komplexen Aufgaben allgemeine Wissensfragen beantworten, lange Aufsätze verfassen und Code schreiben.

Beachten Sie trotz dieser Fortschritte, dass selbst die ausgefeiltesten Systeme Einschränkungen aufweisen. KI macht immer noch Fehler. Um festzustellen, welche Chatbots am wenigsten anfällig für Halluzinationen sind, testen Sie ihre Genauigkeit anhand dieser Faktoren.

1. Rechnen

Führen Sie mathematische Gleichungen über Chatbots aus. Sie testen die Fähigkeit der Plattform, Textaufgaben zu analysieren, mathematische Konzepte zu übersetzen und korrekte Formeln anzuwenden. Nur wenige Modelle weisen zuverlässige Rechenfähigkeiten auf. Tatsächlich einer von

instagram viewer

Die schlimmsten Probleme von ChatGPT während Seine ersten Monate waren sein schreckliches Mathematikverständnis.

Das folgende Bild zeigt, dass ChatGPT bei den grundlegenden Statistiken fehlschlägt.

ChatGPT zeigte danach eine Verbesserung OpenAI hat seine Updates für Mai 2023 veröffentlicht. Angesichts der begrenzten Datensätze werden Sie jedoch immer noch Probleme mit mittleren bis fortgeschrittenen mathematischen Berechnungen haben.

Mittlerweile zeigen Bing Chat und Google Bard eine bessere Rechenkompetenz. Sie führen Abfragen über ihre jeweiligen Suchmaschinen durch und können so Formeln und Antwortbögen abrufen.

Versuchen Sie, Ihre Textaufgaben umzuformulieren. Vermeiden Sie lange Sätze und ersetzen Sie schwache Verben; Andernfalls könnten Chatbots Ihre Fragen falsch verstehen.

2. Verständnis

Moderne KI-Systeme können mehrere Aufgaben übernehmen. Fortschrittliche LLMs ermöglichen es ihnen, vorherige Anweisungen beizubehalten und Eingabeaufforderungen abschnittsweise zu beantworten, während ältere Systeme einzelne Befehle verarbeiten. Siri beantwortet beispielsweise jeweils eine Frage.

Geben Sie Chatbots drei bis fünf Aufgaben gleichzeitig, um zu testen, wie gut sie komplexe Eingaben analysieren. Weniger ausgefeilte Modelle können nicht so viele Informationen verarbeiten. Das Bild unten zeigt eine Fehlfunktion von HuggingChat bei einer dreistufigen Eingabeaufforderung – es stoppt bei Schritt eins und weicht vom Thema ab.

Die letzten Zeilen von HuggingChat sind bereits zusammenhangslos.

ChatGPT erledigt die gleiche Eingabeaufforderung schnell und generiert bei jedem Schritt fehlerfreie, intelligente Antworten.

Bing Chat bietet eine komprimierte Antwort auf die drei Schritte. Seine strengen Beschränkungen verhindern unnötig lange Ausgaben, die Rechenleistung verschwenden.

3. Aktualität

Da das KI-Training enorme Ressourcen kostet, beschränken die meisten Entwickler Datensätze auf bestimmte Zeiträume. Nehmen Sie ChatGPT als Beispiel. Es gilt eine Datensperre von September 2021 – Sie können keine Wetteraktualisierungen, Nachrichtenberichte oder aktuelle Entwicklungen anfordern. Hier sagt ChatGPT, dass es keinen Zugriff auf Echtzeitinformationen hat.

Bard hat Zugang zum Internet. Es ruft Daten aus Google SERPs ab, sodass Sie ein breiteres Spektrum an Fragen stellen können, z. B. zu aktuellen Ereignissen, Nachrichten und Vorhersagen.

Ebenso ruft Bing Chat Echtzeitinformationen aus seiner Suchmaschine ab.

Bing Chat und Bard liefern zeitnahe, aktuelle Informationen, letzteres bietet jedoch detailliertere Antworten. Bing stellt die Daten lediglich so dar, wie sie sind. Sie werden feststellen, dass die Ausgaben häufig wörtlich mit der Phrasierung und dem Ton der verknüpften Quellen übereinstimmen.

4. Relevanz

Chatbots müssen relevante Ergebnisse liefern. Sie sollten bei der Beantwortung die wörtliche und kontextuelle Bedeutung Ihrer Aufforderungen berücksichtigen. Nehmen Sie dieses Gespräch als Beispiel. Unsere Persönlichkeit braucht ein neues Telefon, hat aber nur 1.000 US-Dollar – ChatGPT überschreitet das Budget nicht.

Versuchen Sie beim Testen der Relevanz, ausführliche Anweisungen zu verfassen. Weniger ausgefeilte Chatbots geraten bei verwirrenden Anweisungen tendenziell ins Wanken. HuggingChat kann beispielsweise fiktive Geschichten verfassen. Allerdings kann es vom Hauptthema abweichen, wenn Sie zu viele Regeln und Richtlinien festlegen.

5. Kontextuelles Gedächtnis

Das Kontextgedächtnis hilft der KI dabei, genaue und zuverlässige Ergebnisse zu erzeugen. Anstatt Ihre Fragen für bare Münze zu nehmen, reihen sie die von Ihnen erwähnten Details aneinander. Nehmen Sie dieses Gespräch als Beispiel. Bing Chat verbindet zwei separate Nachrichten zu einer hilfreichen, prägnanten Antwort.

Ebenso ermöglicht das Kontextgedächtnis Chatbots, sich Anweisungen zu merken. Dieses Bild zeigt, wie ChatGPT die Art und Weise nachahmt, wie eine fiktive Figur in mehreren Chats spricht.

Testen Sie diese Funktion selbst, indem Sie immer wieder auf frühere Aussagen verweisen. Füttern Sie Chatbots mit verschiedenen Informationen und zwingen Sie sie dann, diese in späteren Antworten abzurufen.

Das kontextuelle Gedächtnis ist begrenzt. Bing Chat startet alle 20 Runden neue Konversationen, während ChatGPT keine Eingabeaufforderungen über 3.000 Token verarbeiten kann.

6. Sicherheitsbeschränkungen

KI funktioniert nicht immer wie beabsichtigt. Fehlerhaftes Training könnte dazu führen Technologien des maschinellen Lernens, um verschiedene Fehler zu begehen, von kleinen Rechenfehlern bis hin zu problematischen Kommentaren. Nehmen Microsoft Tay als Beispiel. Twitter-Nutzer nutzten das Modell des unbeaufsichtigten Lernens aus und konditionierten es dazu, rassistische Beleidigungen auszusprechen.

Zum Glück haben die globalen Technologieführer aus dem Fehler von Microsoft gelernt. Obwohl es kosteneffizient und bequem ist, macht unbeaufsichtigtes Lernen KI-Systeme anfällig für Täuschungen. Daher setzen Entwickler heutzutage vor allem auf überwachtes Lernen. Chatbots mögen ChatGPT lernt immer noch aus Gesprächen, aber ihre Trainer filtern zuerst die Informationen.

Erwarten Sie unterschiedliche Richtlinien von KI-Unternehmen. Die weniger strengen Beschränkungen von ChatGPT eignen sich für ein breiteres Aufgabenspektrum, sind jedoch schwach gegen Ausbeutung. Mittlerweile folgt Bing Chat strengeren Grenzwerten. Sie helfen zwar bei der Bekämpfung von Ausbeutungsversuchen, behindern aber auch die Funktionalität. Bing beendet automatisch potenziell schädliche Gespräche.

7. KI-Vorurteile

KI ist von Natur aus neutral. Sein Mangel an Vorlieben und Emotionen macht es unfähig, sich eine Meinung zu bilden – es präsentiert lediglich Informationen, die es kennt. So reagiert ChatGPT auf subjektive Themen.

Trotz dieser Neutralität KI-Vorurteile entstehen immer noch. Sie stammen aus den Mustern, Datensätzen, Algorithmen und Modellen, die Entwickler verwenden. KI mag unparteiisch sein, Menschen jedoch nicht.

Zum Beispiel, Die Brookings Institution behauptet, dass ChatGPT linke politische Vorurteile zeigt. OpenAI bestreitet diese Vorwürfe natürlich. Um jedoch ähnliche Probleme bei neueren Modellen zu vermeiden, verzichtet ChatGPT gänzlich auf Meinungsausgaben.

Ebenso vermeidet Bing Chat sensible, subjektive Angelegenheiten.

Beurteilen Sie die KI-Voreingenommenheit selbst, indem Sie meinungsbasierte, offene Fragen stellen. Sprechen Sie über Themen, auf die es keine richtige oder falsche Antwort gibt – weniger ausgefeilte Chatbots zeigen wahrscheinlich unbegründete Präferenzen gegenüber bestimmten Gruppen.

8. Verweise

KI überprüft Fakten selten noch einmal. Es zieht lediglich Informationen aus seinen Datensätzen und formuliert sie durch Sprachmodelle neu. Leider führt begrenztes Training zu KI-Halluzinationen. Sie können weiterhin generative KI-Tools für die Forschung verwenden, aber stellen Sie sicher, dass Sie die Fakten selbst überprüfen. Nehmen Sie die Ausgabe mit Vorsicht.

Bing Chat vereinfacht den Faktenprüfungsprozess, indem es nach jeder Ausgabe seine Referenzen auflistet.

Bard AI listet seine Quellen nicht auf, sondern generiert aktualisierte, ausführliche Erklärungen, indem es Google-Suchanfragen ausführt. Die wichtigsten Punkte erhalten Sie von den SERPs.

ChatGPT ist anfällig für Ungenauigkeiten. Aufgrund seines Wissensstands im Jahr 2021 ist es ihm nicht möglich, Fragen zu aktuellen Ereignissen und Vorfällen zu beantworten.

Schaffen Sie neue Möglichkeiten, Chatbots auf Genauigkeit zu testen

KI ist nicht das A und O der Technologie. Obwohl hochentwickelte KI-Systeme und Sprachmodelle beeindruckende Leistungen erbringen, begehen sie auch Fehler und Inkonsistenzen. Betrachten Sie Chatbots mit Skepsis. Sie können KI-gesteuerte Plattformen nur nutzen, wenn Sie deren Funktionen und Einschränkungen verstehen.

Obwohl es Dutzende von Chatbots auf verschiedenen Plattformen gibt, könnte Sie ihre Zuverlässigkeit und Präzision enttäuschen. Sie verschwenden lediglich Zeit damit, sie zu testen. Um qualitativ hochwertige Ergebnisse zu gewährleisten, empfehlen wir, sich auf die drei robustesten Modelle auf dem Markt zu konzentrieren: ChatGPT, Bing AI und Google Bard.

About Technology - denizatm.com

8 Schlüsselfaktoren, die beim Testen von KI-Chatbots auf Genauigkeit zu berücksichtigen sind

1. Rechnen

2. Verständnis

3. Aktualität

4. Relevanz

5. Kontextuelles Gedächtnis

6. Sicherheitsbeschränkungen

7. KI-Vorurteile

8. Verweise

Schaffen Sie neue Möglichkeiten, Chatbots auf Genauigkeit zu testen

Kategorien

Recent Post

So reinigen Sie Ihre Xbox Series X|S und Ihren Controller sicher

Wie KI-Suchmaschinen Websites verändern könnten

So fügen Sie Ordner zum Kontextmenü in Windows 11 hinzu