PaLM 2 bringt enorme Verbesserungen für Googles LLM mit sich, aber bedeutet das, dass es jetzt mit OpenAIs GPT-4 mithalten kann?
Google stellte am 10. Mai 2023 auf der Google I/O 2023 die nächste Generation seines Pathways Language Model (PaLM 2) vor. Sein neues großes Sprachmodell (LLM) weist gegenüber seinem Vorgänger (PaLM) viele Verbesserungen auf und könnte endlich bereit sein, es mit seinem größten Konkurrenten, dem GPT-4 von OpenAI, aufzunehmen.
Aber wie viel hat Google tatsächlich verbessert? Ist PaLM 2 der von Google erhoffte entscheidende Unterschied, und was noch wichtiger ist: Wie unterscheidet sich PaLM 2 bei so vielen ähnlichen Funktionen vom GPT-4 von OpenAI?
PaLM 2 vs. GPT-4: Leistungsübersicht
PaLM 2 ist vollgepackt mit neuen und verbesserten Funktionen gegenüber seinem Vorgänger. Einer der einzigartigen Vorteile von PaLM 2 gegenüber GPT-4 ist die Tatsache, dass es in kleineren Größen speziell für bestimmte Anwendungen verfügbar ist, die nicht über so viel integrierte Rechenleistung verfügen.
Alle diese verschiedenen Größen haben ihre eigenen kleineren Modelle mit den Namen Gecko, Otter, Bison und Unicorn, wobei Gecko das kleinste ist, gefolgt von Otter, Bison und schließlich Unicorn, dem größten Modell.
Google gibt auch an, dass die Argumentationsfähigkeiten gegenüber GPT-4 in WinoGrande und DROP verbessert wurden, wobei ersteres in ARC-C einen knappen Vorsprung hat. Bei PaLM und SOTA gibt es jedoch auf breiter Front deutliche Verbesserungen.
PaLM 2 ist laut Googles 91-Seite auch besser in Mathe PaLM 2-Forschungspapier [PDF]. Allerdings erschwert die Art und Weise, wie Google und OpenAI ihre Testergebnisse strukturiert haben, einen direkten Vergleich der beiden Modelle. Google hat auch einige Vergleiche ausgelassen, wahrscheinlich weil PaLM 2 nicht annähernd so gut abschnitt wie GPT-4.
In MMLU erreichte GPT-4 86,4 Punkte, während PaLM 2 81,2 Punkte erzielte. Das Gleiche gilt für HellaSwag, wo GPT-4 punktete 95,3, aber PaLM 2 konnte nur 86,8 aufbringen, und ARC-E, wo GPT-4 und PaLM 2 96,3 und 89,7 erreichten, bzw.
Das größte Modell der PaLM 2-Familie ist PaLM 2-L. Obwohl wir seine genaue Größe nicht kennen, wissen wir, dass es deutlich kleiner als das größte PaLM-Modell ist, aber mehr Trainingscomputer benötigt. Laut GooglePaLM verfügt über 540 Milliarden Parameter, sodass das „deutlich kleinere“ PaLM 2 irgendwo zwischen 10 und 300 Milliarden Parameter liegen sollte. Bedenken Sie, dass es sich bei diesen Zahlen nur um Annahmen handelt, die auf den Aussagen von Google im PaLM 2-Papier basieren.
Wenn diese Zahl irgendwo in der Nähe von 100 Milliarden oder darunter liegt, ist PaLM 2 hinsichtlich der Parameter höchstwahrscheinlich kleiner als GPT-3.5. Wenn man bedenkt, dass ein Modell, das potenziell unter 100 Milliarden liegt, mit GPT-4 mithalten und es bei einigen Aufgaben sogar schlagen kann, ist das der Fall beeindruckend. GPT-3.5 hat zunächst alles über den Haufen geworfen, einschließlich PaLM, aber PaLM 2 hat sich deutlich erholt.
Unterschiede in den GPT-4- und PaLM 2-Trainingsdaten
Während Google die Größe des Trainingsdatensatzes von PaLM 2 nicht bekannt gegeben hat, berichtet das Unternehmen in seinem Forschungspapier, dass der Trainingsdatensatz des neuen LLM deutlich größer ist. Auch OpenAI verfolgte bei der Vorstellung von GPT-4 den gleichen Ansatz und machte keine Angaben zur Größe des Trainingsdatensatzes.
Google wollte sich jedoch auf ein tieferes Verständnis von Mathematik, Logik, Argumentation und Naturwissenschaften konzentrieren, was bedeutet, dass sich ein großer Teil der Trainingsdaten von PaLM 2 auf die oben genannten Themen konzentriert. Google sagt in seinem Artikel, dass der Pre-Training-Korpus von PaLM 2 aus mehreren Quellen besteht, darunter Webdokumente, Bücher, Code, Mathematik und Konversationsdaten, was zumindest im Vergleich zu allgemeinen Verbesserungen führt Palme.
Auch die Konversationsfähigkeiten von PaLM 2 dürften auf einem anderen Niveau liegen, wenn man bedenkt, dass das Modell trainiert wurde in über 100 Sprachen, um ein besseres Kontextverständnis und eine bessere Übersetzung zu ermöglichen Fähigkeiten.
Soweit die Trainingsdaten von GPT-4 bestätigt sind, hat OpenAI uns mitgeteilt, dass es das Modell anhand öffentlich verfügbarer Daten und der von ihm lizenzierten Daten trainiert hat. Forschungsseite von GPT-4 heißt es: „Bei den Daten handelt es sich um einen Datenkorpus im Web-Maßstab, der richtige und falsche Lösungen für mathematische Probleme, schwache und schwache Lösungen enthält starke Argumentation, widersprüchliche und konsistente Aussagen und Vertreter einer großen Vielfalt von Ideologien und Ideen.“
Wenn GPT-4 eine Frage gestellt wird, kann es zu einer Vielzahl von Antworten kommen, von denen möglicherweise nicht alle für Ihre Anfrage relevant sind. Um es mit der Absicht des Benutzers in Einklang zu bringen, hat OpenAI das Verhalten des Modells durch verstärkendes Lernen mit menschlichem Feedback verfeinert.
Obwohl wir möglicherweise nicht die genauen Trainingsdaten kennen, auf denen eines dieser Modelle trainiert wurde, wissen wir, dass die Trainingsabsicht sehr unterschiedlich war. Wir müssen abwarten, wie sich dieser Unterschied in der Trainingsabsicht zwischen den beiden Modellen in einem realen Einsatz auswirkt.
PaLM 2- und GPT-4-Chatbots und -Dienste
Das erste Portal, das auf beide LLMs zugreift, nutzt ihre jeweiligen Chatbots, Bard von PaLM 2 und ChatGPT von GPT-4. Allerdings befindet sich GPT-4 mit ChatGPT Plus hinter einer Paywall und kostenlose Benutzer erhalten nur Zugriff auf GPT-3.5. Bard hingegen ist für alle kostenlos und in 180 Ländern verfügbar.
Das heißt aber auch nicht, dass Sie nicht kostenlos auf GPT-4 zugreifen können. Der Bing AI Chat von Microsoft verwendet GPT-4 und ist völlig kostenlos, für alle zugänglich und direkt neben Bing Search, dem größten Konkurrenten von Google in diesem Bereich, verfügbar.
Die Google I/O 2023 war voller Ankündigungen darüber, wie PaLM 2 und die generative KI-Integration den Google Workspace verbessern werden Erfahrung mit KI-Funktionen für Google Docs, Sheets, Slides, Gmail und nahezu jeden Dienst, den der Suchriese anbietet. Darüber hinaus hat Google bestätigt, dass PaLM 2 bereits in über 25 Google-Produkte integriert wurde, darunter Android und YouTube.
Im Vergleich dazu hat Microsoft bereits KI-Funktionen in die Microsoft Office-Programmsuite und viele seiner Dienste integriert. Derzeit können Sie beide LLMs in ihren eigenen Versionen ähnlicher Angebote zweier konkurrierender Unternehmen erleben, die im KI-Kampf gegeneinander antreten.
Da GPT-4 jedoch früh auf den Markt kam und darauf geachtet wurde, viele der Fehler zu vermeiden, die Google mit dem ursprünglichen Bard gemacht hat, ist es das De-facto-LLM für Drittentwickler, Start-ups und praktisch alle anderen, die ein leistungsfähiges KI-Modell in ihren Dienst integrieren möchten weit. Wir haben ein Liste der GPT-4-Apps, wenn Sie sie ausprobieren möchten.
Das heißt nicht, dass Entwickler nicht auf PaLM 2 umsteigen oder es zumindest ausprobieren werden, aber Google muss in dieser Hinsicht noch mit OpenAI aufholen. Und die Tatsache, dass PaLM 2 Open Source ist und nicht an eine kostenpflichtige API gebunden ist, bedeutet, dass es das Potenzial hat, weiter verbreitet zu werden als GPT-4.
Kann PaLM 2 es mit GPT-4 aufnehmen?
Da PaLM 2 noch sehr neu ist, muss die Frage, ob es mit GPT-4 mithalten kann, noch geklärt werden. Angesichts all dessen, was Google verspricht, und der aggressiven Art und Weise, mit der es es verbreitet, sieht es jedoch so aus, als könnte PaLM 2 GPT-4 Konkurrenz machen.
Allerdings ist GPT-4 immer noch ein recht leistungsfähiges Modell und schlägt, wie bereits erwähnt, PaLM 2 in zahlreichen Vergleichen. Dennoch verleihen die zahlreichen kleineren Modelle dem PaLM 2 einen unumstößlichen Vorteil. Gecko selbst ist so leichtgewichtig, dass es auch offline auf mobilen Geräten funktioniert. Dies bedeutet, dass PaLM 2 eine völlig andere Klasse von Produkten und Geräten unterstützen kann, die möglicherweise Schwierigkeiten bei der Verwendung von GPT-4 haben.
Das KI-Rennen heizt sich auf
Mit der Einführung von PaLM2 hat sich das Rennen um die KI-Dominanz verschärft, da dies möglicherweise der erste würdige Gegner ist, der gegen GPT-4 antritt. Da sich ein neueres multimodales KI-Modell namens „Gemini“ ebenfalls im Training befindet, zeigt Google hier keine Anzeichen einer Verlangsamung.