Sie haben wahrscheinlich schon vom GPT von OpenAI gehört, aber es sind nicht die einzigen LLMs auf dem Block.
Die zentralen Thesen
- GPT-4 von OpenAI ist das fortschrittlichste und am weitesten verbreitete große Sprachmodell mit 1,76 Billionen Parametern und multimodalen Fähigkeiten.
- Claude 2 von Anthropic konkurriert mit GPT-4 bei kreativen Schreibaufgaben und kann sich trotz geringerer Ressourcen behaupten.
- Googles PaLM 2 ist zwar kein GPT-4-Killer, aber ein leistungsstarkes Sprachmodell mit starken mehrsprachigen und kreativen Fähigkeiten. Falcon-180B ist ein Open-Source-Modell, das mit kommerziellen Giganten konkurriert und mit GPT-3.5 mithalten kann.
Es ist KI-Saison und Technologieunternehmen produzieren große Sprachmodelle wie Brot aus der Bäckerei. Neue Modelle kommen schnell auf den Markt und es wird immer schwieriger, den Überblick zu behalten.
Aber inmitten der Flut neuer Veröffentlichungen haben es nur wenige Modelle an die Spitze geschafft und sich als echte Konkurrenten im großen Sprachmodellbereich erwiesen. Da wir uns dem Ende des Jahres 2023 nähern, haben wir die sechs beeindruckendsten großen Sprachmodelle zusammengestellt, die Sie ausprobieren sollten.
1. GPT-4 von OpenAI
GPT-4 ist das bisher fortschrittlichste öffentlich verfügbare große Sprachmodell. Entwickelt von OpenAI und veröffentlicht im März 2023, GPT-4 ist die neueste Version der Generative Pre-trained Transformer-Reihe das begann im Jahr 2018. Mit seinen immensen Fähigkeiten hat sich GPT-4 zu einem der am weitesten verbreiteten und beliebtesten großen Sprachmodelle der Welt entwickelt.
Obwohl nicht offiziell bestätigt, schätzen Quellen, dass GPT-4 unglaubliche 1,76 Billionen Parameter enthalten könnte. rund zehnmal mehr als sein Vorgänger GPT-3.5 und fünfmal größer als Googles Flaggschiff PaLM 2. Diese enorme Skalierung ermöglicht die multimodalen Fähigkeiten von GPT-4, die es ihm ermöglichen, sowohl Text als auch Bilder als Eingabe zu verarbeiten. Dadurch kann GPT-4 neben Text auch visuelle Informationen wie Diagramme und Screenshots interpretieren und beschreiben. Sein multimodaler Charakter ermöglicht ein menschlicheres Verständnis realer Daten.
In wissenschaftlichen Benchmarks übertrifft GPT-4 in verschiedenen Tests andere zeitgenössische Modelle deutlich. Während Benchmarks allein die Stärken eines Modells nicht vollständig aufzeigen, haben reale Anwendungsfälle gezeigt, dass GPT-4 außerordentlich gut darin ist, praktische Probleme intuitiv zu lösen. GPT-4 wird derzeit mit 20 US-Dollar pro Monat berechnet zugänglich über den Plus-Plan von ChatGPT.
2. Anthropics Claude 2
Claude 2, entwickelt von Anthropic AI, ist zwar nicht so beliebt wie GPT-4, kann aber in mehreren Bereichen mit den technischen Benchmarks und der realen Leistung von GPT-4 mithalten. In einigen standardisierten Tests, einschließlich ausgewählter Prüfungen, übertrifft Claude 2 GPT-4. Das KI-Sprachmodell verfügt außerdem über ein weitaus besseres Kontextfenster mit etwa 100.000 Token im Vergleich zu den GPT-4-Modellen mit 8.000 und 32.000 Token. Obwohl eine größere Kontextlänge nicht immer zu einer besseren Leistung führt, bietet die erweiterte Kapazität von Claude 2 klare Vorteile, wie z. B. die Verarbeitung ganzer Bücher mit 75.000 Wörtern zur Analyse.
In der Gesamtleistung bleibt GPT-4 überlegen, aber Unsere internen Tests zeigen, dass Claude 2 diese übertrifft in mehreren kreativen Schreibaufgaben. Basierend auf unseren Bewertungen liegt Claude 2 auch in den Bereichen Programmieren und Mathematik hinter GPT-4 zurück, zeichnet sich jedoch dadurch aus, dass er menschenähnliche, kreative Antworten liefert. Als wir alle Modelle auf dieser Liste dazu aufforderten, ein kreatives Stück zu schreiben oder umzuschreiben, wählten wir in sechs von zehn Fällen das Ergebnis von Claude 2 aufgrund seiner natürlich klingenden, menschenähnlichen Ergebnisse. Momentan, Claude 2 ist kostenlos über den Claude AI-Chatbot verfügbar. Es gibt auch einen kostenpflichtigen Plan für 20 $ für den Zugriff auf zusätzliche Funktionen.
Obwohl das Claude 2 AI-Modell von Anthropic weniger finanzielle Unterstützung als Giganten wie OpenAI und Microsoft hat, kann es sich gegen die beliebten GPT-Modelle und die PaLM-Serie von Google behaupten. Für eine KI mit weniger Ressourcen ist Claude 2 beeindruckend konkurrenzfähig. Wenn man darauf wetten muss, welches bestehende Modell in naher Zukunft die besten Chancen hat, mit GPT zu konkurrieren, scheint Claude 2 die sicherste Wette zu sein. Auch wenn Claude 2 bei der Finanzierung unterlegen ist, deuten seine fortgeschrittenen Fähigkeiten darauf hin, dass es mithalten kann gut finanzierte Giganten (obwohl es erwähnenswert ist, dass Google mehrere große Beiträge dazu geleistet hat). Anthropisch). Das Modell übertrifft seine Gewichtsklasse und erweist sich als aufstrebender Herausforderer als vielversprechend.
3. GPT-3.5 von OpenAI
GPT-3.5 und seine 175 Milliarden Parameter stehen zwar im Schatten der Veröffentlichung von GPT-4, sollten jedoch nicht unterschätzt werden. Durch iterative Feinabstimmung und Upgrades mit Schwerpunkt auf Leistung, Genauigkeit und Sicherheit hat GPT-3.5 im Vergleich zum ursprünglichen GPT-3-Modell einen langen Weg zurückgelegt. Obwohl ihm die multimodalen Fähigkeiten von GPT-4 fehlen und er in Bezug auf Kontextlänge und Parameteranzahl zurückbleibt, GPT-3.5 bleibt hochleistungsfähig, wobei GPT-4 das einzige Modell ist, das seine Gesamtleistung übertreffen kann entscheidend.
Obwohl es sich um ein Zweitmodell der GPT-Familie handelt, kann GPT-3.5 in mehreren Benchmarks mithalten und sogar die Flaggschiffmodelle von Google und Meta übertreffen. Bei Vergleichstests der Mathematik- und Programmierfähigkeiten mit Googles PaLM 2 waren die Unterschiede nicht groß, wobei GPT-3.5 in einigen Fällen sogar einen leichten Vorsprung hatte. Bei kreativeren Aufgaben wie Humor und narrativem Schreiben setzte sich GPT-3.5 deutlich durch.
Während GPT-4 einen neuen Meilenstein in der KI darstellt, bleibt GPT-3.5 ein beeindruckend leistungsstarkes Modell, das mit den fortschrittlichsten Alternativen konkurrieren und diese manchmal sogar übertreffen kann. Seine kontinuierliche Verfeinerung stellt sicher, dass es auch neben auffälligeren Modellen der nächsten Generation relevant bleibt.
4. Googles PaLM 2
Bei der Bewertung der Fähigkeiten eines KI-Modells besteht die bewährte Formel darin, den technischen Bericht zu lesen und Überprüfen Sie die Benchmark-Ergebnisse, aber nehmen Sie alles, was Sie gelernt haben, mit Vorsicht und testen Sie das Modell selbst. So kontraintuitiv es auch erscheinen mag, die Benchmark-Ergebnisse stimmen bei einigen KI-Modellen nicht immer mit der tatsächlichen Leistung überein. Auf dem Papier sollte Googles PaLM 2 der GPT-4-Killer sein. Offizielle Testergebnisse deuten darauf hin, dass es in einigen Benchmarks mit GPT-4 mithalten kann. Im alltäglichen Gebrauch ergibt sich jedoch ein anderes Bild.
In den Bereichen logisches Denken, Mathematik und Kreativität bleibt PaLM 2 hinter GPT-4 zurück. Auch in einer Reihe kreativer Schreibaufgaben bleibt es hinter Claude von Anthropic zurück. Obwohl es seinem Anspruch als GPT-4-Killer nicht gerecht wird, Googles PaLM 2 bleibt ein leistungsstarkes Sprachmodell eigenständig, mit immensen Fähigkeiten. Ein Großteil der negativen Stimmung ist eher auf Vergleiche mit Modellen wie GPT-4 als auf eine völlig schlechte Leistung zurückzuführen.
Mit 340 Milliarden Parametern gehört PaLM 2 zu den größten Modellen der Welt. Es zeichnet sich besonders durch mehrsprachige Aufgaben aus und verfügt über ausgeprägte Mathematik- und Programmierkenntnisse. PaLM 2 ist zwar nicht der Beste darin, aber auch bei kreativen Aufgaben wie dem Schreiben recht effizient. Während die Benchmarks also ein optimistisches Bild zeichneten, das sich nicht vollständig bewahrheitete, demonstriert PaLM 2 dennoch beeindruckende KI-Fähigkeiten, auch wenn es nicht alle Konkurrenten auf ganzer Linie übertrifft.
5. TIIs Falcon-180B
Sofern Sie nicht mit der rasanten Geschwindigkeit der Veröffentlichungen von KI-Sprachmodellen Schritt gehalten haben, sind Sie Falcon-180B wahrscheinlich noch nie begegnet. Der vom Technology Innovation Institute der VAE entwickelte Falcon-180 mit 180 Milliarden Parametern ist einer der leistungsstärksten Es gibt viele Open-Source-Sprachmodelle, auch wenn ihnen der Bekanntheitsgrad von GPT-Modellen oder die weitverbreitete Verwendung von Metas fehlt Lama 2. Aber täuschen Sie sich nicht – der Falcon-180B kann sich mit den Besten seiner Klasse messen.
Benchmark-Ergebnisse zeigen, dass Falcon-180B die meisten Open-Source-Modelle übertrifft und mit kommerziellen Molochen wie konkurriert PaLM 2 und GPT-3.5. Beim Testen von Mathematik-, Codierungs-, Argumentations- und kreativen Schreibaufgaben übertraf es sogar GPT-3.5 und PaLM 2 mal. Bei einer Rangfolge von GPT-4, GPT-3.5 und Falcon-180B würden wir Falcon-180B aufgrund seiner Stärken in mehreren Anwendungsfällen genau zwischen GPT-4 und GPT-3.5 einordnen.
Wir können zwar nicht mit Sicherheit sagen, dass es hinsichtlich der Gesamtleistung besser als GPT-3.5 ist, aber es spricht für sich. Obwohl dieses Modell unbekannt ist, verdient es Aufmerksamkeit, da es die Fähigkeiten bekannterer Alternativen erreicht oder übertrifft. Sie können das Modell Falcon-180B ausprobieren Umarmendes Gesicht (eine Open-Source-LLM-Plattform).
Llama 2, das große Sprachmodell von Meta AI mit 70 Milliarden Parametern, baut auf seinem Vorgänger Llama 1 auf. Obwohl Llama 2 kleiner als führende Modelle ist, übertrifft es die meisten öffentlich verfügbaren Open-Source-LLMs bei Benchmarks und im realen Einsatz deutlich. Eine Ausnahme wäre der Falcon-180B.
Wir haben Llama 2 gegen GPT-4, GPT-3.5, Claude 2 und PaLM 2 getestet, um seine Fähigkeiten einzuschätzen. Es überrascht nicht, dass GPT-4 Llama 2 in fast allen Parametern übertrifft. Allerdings konnte sich Llama 2 in mehreren Bewertungen gegen GPT-3.5 und PaLM 2 behaupten. Obwohl es unzutreffend wäre zu behaupten, dass Llama 2 PaLM 2 überlegen sei, löste Llama 2 viele Probleme, die PaLM 2 zum Scheitern brachten, einschließlich Codierungsaufgaben. Claude 2 und GPT-3.5 übertrafen Llama 2 in einigen Bereichen, waren aber nur in einer begrenzten Anzahl von Aufgaben entscheidend besser.
Obwohl die Fähigkeiten der größten proprietären Modelle nicht überschritten werden, Open-Source-Llama 2 übertrifft seine Gewichtsklasse. Für ein öffentlich verfügbares Modell zeigt es eine beeindruckende Leistung und konkurriert in ausgewählten Bewertungen mit KI-Giganten wie PaLM 2. Llama 2 bietet einen Einblick in das zukünftige Potenzial von Open-Source-Sprachmodellen.
Der Leistungsunterschied zwischen KI-Modellen wird kleiner
Obwohl sich die KI-Landschaft rasant weiterentwickelt, bleibt GPT-4 von OpenAI der Spitzenreiter. Doch während GPT-4 in Bezug auf Größe und Leistung unübertroffen bleibt, zeigen Modelle wie Claude 2, dass kleinere Modelle mit genügend Geschick in ausgewählten Bereichen mithalten können. Obwohl Googles PaLM 2 hinter einigen hohen Erwartungen zurückbleibt, weist es dennoch umfassende Fähigkeiten auf. Und Falcon-180B beweist, dass Open-Source-Initiativen bei ausreichenden Ressourcen Seite an Seite mit Branchengrößen stehen können.