Benutzer greifen typischerweise über eine Benutzeroberfläche über eine API auf große Sprachmodelle (LLMs) zu. Obwohl die Verwendung von APIs mehrere Vorteile bietet, bringt sie auch Einschränkungen mit sich, beispielsweise die Notwendigkeit einer ständigen Internetverbindung Verbindung, begrenzte Anpassungen, mögliche Sicherheitsprobleme und Unternehmen, die die Modellfunktionen durch a einschränken Paywall.
Mit quantisierten LLMs, die jetzt auf HuggingFace und KI-Ökosystemen wie H20, Text Gen und GPT4All verfügbar sind Mit der Möglichkeit, LLM-Gewichte auf Ihren Computer zu laden, haben Sie jetzt eine kostenlose, flexible und sichere Option KI.
Um Ihnen den Einstieg zu erleichtern, finden Sie hier sieben der besten lokalen/Offline-LLMs, die Sie derzeit nutzen können!
1. Hermes GPTQ
Ein hochmodernes Sprachmodell, das mithilfe eines Datensatzes von 300.000 Anweisungen von Nous Research verfeinert wurde. Hermes basiert auf Metas LlaMA2 LLM und wurde mithilfe größtenteils synthetischer GPT-4-Ausgaben verfeinert.
Modell |
Hermes 13b GPTQ |
Modellgröße |
7,26 GB |
Parameter |
13 Milliarden |
Quantisierung |
4-Bit |
Typ |
LlaMA2 |
Lizenz |
GPL 3 |
Durch die Verwendung von LlaMA2 als Basismodell kann Hermes die Kontextgröße verdoppeln oder eine maximale Tokengröße von 4.096 erreichen. Durch die Kombination der langen Kontextgröße und einer Encoder-Architektur ist Hermes dafür bekannt, dass es lange Reaktionen und niedrige Halluzinationsraten liefert. Dies macht Hermes zu einem großartigen Modell für verschiedene Zwecke Verarbeitung natürlicher Sprache (NLP) Aufgaben wie das Schreiben von Code, die Erstellung von Inhalten und die Arbeit als Chatbot.
Es gibt mehrere Quantisierungen und Versionen des neuen Hermes GPTQ. Wir empfehlen Ihnen, zunächst das Hermes-Llama2 13B-GPTQ-Modell auszuprobieren, da es die am einfachsten zu implementierende Version ist und dennoch eine hervorragende Leistung bietet.
2. Falcon weist GPTQ an
Diese quantisierte Version von Falcon basiert auf der reinen Decoder-Architektur, die auf dem Rohmodell Flacon-7b von TII verfeinert wurde. Das Basismodell von Falcon wurde mit beeindruckenden 1,5 Billionen Token aus dem öffentlichen Internet trainiert. Als anweisungsbasiertes Nur-Decoder-Modell, das unter Apache 2 lizenziert ist, eignet sich Falcon Instruct perfekt für kleine Unternehmen, die ein Modell für die Sprachübersetzung und Dateneingabe suchen.
Modell |
Falcon-7B-Instruktion |
Modellgröße |
7,58 GB |
Parameter |
7 Milliarden |
Quantisierung |
4-Bit |
Typ |
Falke |
Lizenz |
Apache 2.0 |
Diese Version von Falcon ist jedoch nicht ideal für die Feinabstimmung und dient nur der Schlussfolgerung. Wenn Sie Falcon verfeinern möchten, müssen Sie das Rohmodell verwenden, was möglicherweise Zugriff auf Schulungshardware der Unternehmensklasse wie NVIDIA DGX oder erfordert AMD Instinct AI-Beschleuniger.
3.GPT4ALL-J Groovy
GPT4All-J Groovy ist ein reines Decoder-Modell, das von Nomic AI fein abgestimmt und unter Apache 2.0 lizenziert ist. GPT4ALL-J Groovy basiert auf dem ursprünglichen GPT-J-Modell, das für seine hervorragende Textgenerierung bekannt ist aus Eingabeaufforderungen. GPT4ALL -J Groovy wurde als Chat-Modell optimiert, das sich hervorragend für schnelle und kreative Anwendungen zur Texterstellung eignet. Dies macht GPT4All-J Groovy ideal für Content-Ersteller, da es sie beim Schreiben und bei kreativen Arbeiten unterstützt, sei es Poesie, Musik oder Geschichten.
Modell |
GPT4ALL-J Groovig |
Modellgröße |
3,53 GB |
Parameter |
7 Milliarden |
Quantisierung |
4-Bit |
Typ |
GPT-J |
Lizenz |
Apache 2.0 |
Leider wurde das GPT-J-Basismodell auf einem rein englischsprachigen Datensatz trainiert, was bedeutet, dass selbst dieses fein abgestimmte GPT4ALL-J-Modell nur auf Englisch chatten und Textgenerierungsanwendungen ausführen kann.
4.WizardCoder-15B-GPTQ
Suchen Sie ein Modell, das speziell auf die Codierung abgestimmt ist? Trotz seiner wesentlich geringeren Größe gilt WizardCoder als eines der besten Codierungsmodelle und übertrifft andere Modelle wie LlaMA-65B, InstructCodeT5+ und CodeGeeX. Dieses Modell wurde mit einer codierungsspezifischen Evol-Instruct-Methode trainiert, die Ihre Eingabeaufforderungen automatisch so bearbeitet, dass sie zu einer effektiveren codierungsbezogenen Eingabeaufforderung werden, die das Modell besser verstehen kann.
Modell |
WizardCoder-15B-GPTQ |
Modellgröße |
7,58 GB |
Parameter |
15 Milliarden |
Quantisierung |
4-Bit |
Typ |
Lama |
Lizenz |
bigcode-openrail-m |
Durch die Quantisierung in ein 4-Bit-Modell kann WizardCoder nun auf normalen PCs verwendet werden, wo Einzelpersonen ihn zum Experimentieren und als Codierungsassistent für einfachere Programme und Skripte verwenden können.
5. Wizard Vicuna Uncensored-GPTQ
Wizard-Vicuna GPTQ ist eine quantisierte Version von Wizard Vicuna basierend auf dem LlaMA-Modell. Im Gegensatz zu den meisten LLMs, die der Öffentlichkeit zugänglich gemacht werden, handelt es sich bei Wizard-Vicuna um ein unzensiertes Modell, dessen Ausrichtung entfernt wurde. Das bedeutet, dass das Modell nicht die gleichen Sicherheits- und Moralstandards hat wie die meisten Modelle.
Modell |
Wizard-Vicuna-30B-Uncensored-GPTQ |
Modellgröße |
16,94 GB |
Parameter |
30 Milliarden |
Quantisierung |
4-Bit |
Typ |
Lama |
Lizenz |
GPL 3 |
Obwohl möglicherweise ein Problem mit der KI-AusrichtungssteuerungEin unzensiertes LLM holt auch das Beste aus dem Modell heraus, da es ohne Einschränkungen antworten kann. Dies ermöglicht es den Benutzern auch, ihre individuelle Ausrichtung darüber hinzuzufügen, wie die KI auf der Grundlage einer bestimmten Eingabeaufforderung reagieren oder antworten soll.
6. Orca Mini-GPTQ
Möchten Sie mit einem Modell experimentieren, das auf einer einzigartigen Lernmethode trainiert wurde? Orca Mini ist eine inoffizielle Modellimplementierung der Orca-Forschungspapiere von Microsoft. Es wurde mit der Lehrer-Schüler-Lernmethode trainiert, bei der der Datensatz voller Erklärungen und nicht nur mit Aufforderungen und Antworten war. Theoretisch sollte dies zu einem intelligenteren Schüler führen, bei dem das Modell das Problem verstehen kann, anstatt nur nach Eingabe- und Ausgabepaaren zu suchen, wie es bei typischen LLMs der Fall ist.
Modell |
Orca Mini-GPTQ |
Modellgröße |
8,11 GB |
Parameter |
3 Milliarden |
Quantisierung |
4-Bit |
Typ |
Lama |
Lizenz |
MIT |
Mit nur drei Milliarden Parametern lässt sich Orca Mini GPTQ auch auf leistungsschwächeren Systemen problemlos ausführen. Dieses Modell sollte jedoch nicht für professionelle Zwecke verwendet werden, da es falsche Informationen sowie voreingenommene und beleidigende Reaktionen hervorruft. Dieses Modell sollte zum Lernen und Experimentieren mit Orca und seinen Methoden verwendet werden.
7.LlaMA 2 Chat GPTQ
LlaMA 2 ist der Nachfolger des ursprünglichen LlaMA LLM, aus dem die meisten Modelle auf dieser Liste hervorgegangen sind. LlaMA 2 ist eine Sammlung mehrerer LLMs, die jeweils mit 7–70 Milliarden Parametern trainiert werden. Insgesamt wurde LlaMA 2 mit 2 Billionen Daten-Tokens aus öffentlich zugänglichen Befehlsdatensätzen vorab trainiert.
Modell |
Falcon-40B-Instruct-GPTQ |
Modellgröße |
7,26 GB |
Parameter |
3 Milliarden |
Quantisierung |
4-Bit |
Typ |
OpenLlaMA |
Lizenz |
EULA (Meta-Lizenz) |
LlaMA 2 ist für kommerzielle und Forschungszwecke vorgesehen. Daher wird dieses Modell am besten nach einer Feinabstimmung verwendet, um eine bessere Leistung bei bestimmten Aufgaben zu erzielen. Dieses spezielle LlaMA 2-Chat-GPTQ-Modell wurde für den englischen Dialog optimiert und optimiert Das perfekte Modell für Unternehmen und Organisationen als Chatbot mit wenig bis gar keiner zusätzlichen Schulung erforderlich. Den Bedingungen zufolge können Unternehmen mit weniger als 700 Millionen Nutzern LlaMA 2 nutzen, ohne Lizenzgebühren von Meta oder Microsoft zu zahlen.
Probieren Sie noch heute lokale große Sprachmodelle aus
Einige der oben aufgeführten Modelle haben hinsichtlich der Parameter mehrere Versionen. Im Allgemeinen führen Versionen mit höheren Parametern zu besseren Ergebnissen, erfordern jedoch eine leistungsfähigere Hardware, während Versionen mit niedrigeren Parametern Ergebnisse von geringerer Qualität liefern, aber auf Hardware der unteren Preisklasse ausgeführt werden können. Wenn Sie nicht sicher sind, ob Ihr PC das Modell ausführen kann, versuchen Sie es zunächst mit der Version mit niedrigeren Parametern und fahren Sie dann fort, bis Sie das Gefühl haben, dass der Leistungsabfall nicht mehr akzeptabel ist.
Da die quantisierten Modelle in dieser Liste nur wenige Gigabyte Speicherplatz beanspruchen und Modellbereitstellungsplattformen wie GPT4All und Text-Generation-WebUI kann einfach über die Ein-Klick-Installationsprogramme installiert werden, das Ausprobieren mehrerer Modelle und Modellversionen sollte nicht dauern viel Zeit und Mühe.
Also, worauf wartest Du? Probieren Sie noch heute ein lokales Modell aus!