Die Macher von ChatGPT haben ein weiteres Tool, das Ihre Finger entlasten soll.
Dieselben Leute hinter ChatGPT haben ein weiteres KI-basiertes Tool entwickelt, mit dem Sie heute Ihre Produktivität steigern können. Wir beziehen uns auf Whisper, eine Voice-to-Text-Lösung, die alle ähnlichen Lösungen davor in den Schatten stellte.
Sie können Whisper in Ihren Programmen oder über die Befehlszeile verwenden. Und doch verfehlt das seinen eigentlichen Zweck: das Tippen ohne Tastatur. Wenn Sie tippen müssen, um es zu verwenden, warum sollten Sie es dann verwenden, um das Tippen zu vermeiden? Glücklicherweise können Sie Whisper jetzt über eine Desktop-GUI verwenden. Noch besser: Es kann Ihre Stimme fast in Echtzeit transkribieren. Sehen wir uns an, wie Sie mit Whisper Desktop mit Ihrer Stimme tippen können.
Was ist OpenAIs Whisper?
Whisper von OpenAI ist ein automatisches Spracherkennungssystem (kurz ASR) oder vereinfacht gesagt eine Lösung zur Umwandlung gesprochener Sprache in Text.
Im Gegensatz zu älteren Diktier- und Transkriptionssystemen handelt es sich bei Whisper jedoch um eine KI-Lösung, die auf über 680.000 Sprachstunden in verschiedenen Sprachen trainiert wurde. Whisper bietet eine beispiellose Genauigkeit und ist beeindruckenderweise nicht nur mehrsprachig, sondern kann auch zwischen Sprachen übersetzen.
Noch wichtiger ist, dass es kostenlos und als Open Source verfügbar ist. Aus diesem Grund haben viele Entwickler den Code in ihre eigenen Projekte integriert oder Apps erstellt, die darauf basieren, wie etwa Whisper Desktop.
Wenn Sie die „Vanilla“-Version von Whisper und die Vielseitigkeit des Terminals anstelle von klobigen GUIs bevorzugen, lesen Sie unseren Artikel über wie Sie Ihre Stimme mit OpenAIs Whisper für Windows in Text umwandeln.
Sind Whisper und Whisper Desktop dasselbe?
Trotz seines offiziell klingenden Namens handelt es sich bei Whisper Desktop um eine Drittanbieter-GUI für Whisper, die für alle gedacht ist, die lieber auf Schaltflächen klicken, als Befehle einzugeben.
Whisper Desktop ist eine eigenständige Lösung, die nicht auf einer vorhandenen Whisper-Installation basiert. Als Bonus wird eine alternative, optimierte Version von Whisper verwendet, sodass die Leistung besser sein sollte als die Standalone-Version.
Sie befinden sich am anderen Ende des Spektrums und suchen nicht nach einer einfacheren Möglichkeit, Whisper als das Terminal zu verwenden, sondern nach Möglichkeiten, es in Ihre eigenen Lösungen zu implementieren? Freue dich, denn OpenAI hat den Zugriff auf ChatGPT- und Whisper-APIs geöffnet.
Laden Sie Whisper Desktop herunter und installieren Sie es
Obwohl Whisper Desktop einfacher zu verwenden ist als das eigenständige Whisper, ist die Installation komplizierter als das wiederholte Klicken auf „Weiter“ in einem Assistenten.
- Besuchen Die offizielle Github-Seite von Whisper Desktop. Schauen Sie rechts nach und klicken Sie unten auf die neueste Version Veröffentlichungen.
- Unter Vermögenswerte, klicken WhisperDesktop.zip und laden Sie es auf Ihren PC herunter.
- Extrahieren Sie das heruntergeladene Archiv in einen Ordner und rufen Sie es mit Ihrem Dateimanager auf. Darin finden Sie die Whisper Desktop-Anwendung. Doppelklicken Sie darauf, um es auszuführen.
- Sie benötigen außerdem ein Whisper-Sprachmodell GCML Binärformat. Whisper Desktop stellt Ihnen zwei Links zum Erwerb eines solchen zur Verfügung. Überspringen Sie den zweiten Link zum Generieren Ihres eigenen Modells, da dies ein komplizierterer Prozess ist. Klicke auf Umarmendes Gesicht, um diese Seite in Ihrem Standardbrowser zu öffnen, von wo aus Sie eine gebrauchsfertige Datei herunterladen können.
- Die Version von Whisper Desktop, die wir beim Schreiben dieses Artikels verwendet haben, enthielt einen Link zu einem veralteten Repository bei Hugging Face. Wenn Sie auf dasselbe Problem stoßen, beachten Sie einen Link zu a neuen Ort. Klicken Sie darauf, um das neue Repository zu besuchen.
- Klicken Sie auf den Link, der Sie zur verfügbaren Seite führt Modelle.
- Klicken Sie in dieser Liste entweder auf ggml-medium.bin oder ggml-medium.en.bin, je nachdem, ob Sie mehrsprachige oder nur englischsprachige Unterstützung in Whisper wünschen.
- Endlich sollten Sie Ihr Ziel erreicht haben. Beachten Sie die Zeile, die besagt, dass diese Datei mit Git LFS gespeichert ist und zu groß zum Anzeigen ist, Sie sie aber trotzdem herunterladen können. Klicke auf herunterladen genau das zu tun.
- Wenn der Download der Datei abgeschlossen ist, verschieben Sie die heruntergeladene Sprachmodelldatei mit Ihrem bevorzugten Dateimanager (Datei-Explorer) in denselben Ordner wie Whisper Desktop.
Transkribieren mit Whisper Desktop
Das Transkribieren mit Whisper Desktop ist einfach, aber Sie benötigen möglicherweise noch ein oder zwei Klicks, um die App zu verwenden.
Führen Sie Whisper Desktop erneut aus. Fehlt (immer noch) der richtige Pfad zu Ihrem heruntergeladenen Sprachmodell? Klick auf das Schaltfläche mit den drei Punkten Klicken Sie rechts im Feld und wählen Sie manuell die Datei aus, die Sie von Hugging Face heruntergeladen haben.
Von dieser Stelle aus können Sie auch das Dropdown-Menü daneben verwenden Modellimplementierung um auszuwählen, ob Sie Whisper auf Ihrer GPU ausführen möchten (GPU), sowohl auf der CPU als auch auf der GPU (Hybrid), oder nur auf der CPU (Referenz).
Der Fortschrittlich Die Schaltfläche führt zu weiteren Optionen, die sich darauf auswirken, wie Whisper auf Ihrer Hardware ausgeführt wird. Da die Schaltfläche jedoch deutlich darauf hinweist, dass sie „erweitert“ sind, empfehlen wir Ihnen, sie nur dann zu optimieren, wenn Sie Fehler beheben oder wissen, was Sie tun. Wenn Sie hier die falschen Optionswerte festlegen, kann dies zu Leistungseinbußen führen oder die App unbrauchbar machen.
Klicken Sie auf OK, um zur Hauptoberfläche der App zu gelangen.
Wenn Sie bereits eine Aufnahme Ihrer Stimme haben, die Sie in geschriebenen Text umwandeln möchten, klicken Sie auf Datei transkribieren und wählen Sie es aus. Dennoch werden wir Whisper Desktop für die Live-Transkription dieses Artikels verwenden.
Die angebotenen Optionen sind unkompliziert. Sie können die auswählen Sprache Whisper wird verwendet, wählen Sie, wenn Sie möchten übersetzen Wechseln Sie zwischen den Sprachen und aktivieren Sie die App Debug-Konsole.
Die meisten englischsprachigen Benutzer können diese Optionen getrost überspringen und nur sicherstellen, dass der richtige Audioeingang aus dem Pulldown-Menü daneben ausgewählt wird Aufnahme Gerät.
Stellen Sie sicher Speichern in eine Textdatei Und An diese Datei anhängen sind aktiviert, damit Whisper Desktop seine Ausgabe in einer Datei speichert, ohne deren Inhalt zu überschreiben. Benutzen Sie die Schaltfläche mit den drei Punkten rechts neben dem Pfadfeld der Datei, um die Textdatei zu definieren.
Klicke auf Ergreifen um mit der Transkription Ihrer Rede in Text zu beginnen.
Whisper Desktop zeigt Ihnen drei Indikatoren an, wann Sprachaktivität erkannt wird, wann aktiv transkribiert wird und wann der Prozess ins Stocken geraten ist.
Sie können so lange reden, wie Sie möchten, und gelegentlich sollten die beiden ersten Anzeigen blinken, während die App Ihre Stimme in Text umwandelt. Klicken Stoppen wenn fertig.
Die von Ihnen ausgewählte Textdatei sollte in Ihrem Standardtexteditor geöffnet werden und alles, was Sie bis zum Klicken gesagt haben, in schriftlicher Form enthalten Stoppen.
Wir sollten beachten, dass Sie auch das Gegenteil von dem tun können, was wir hier gesehen haben: jeden Text in Sprache umwandeln. Auf diese Weise können Sie sich alles anhören, als wäre es ein Podcast, anstatt ermüdend mit zusammengekniffenen Augen auf Bildschirme starren zu müssen. Weitere Informationen hierzu finden Sie in unserem Artikel einige der besten kostenlosen Online-Tools zum Herunterladen von Text-to-Speech als MP3-Audio.
Tipps zur Spracheingabe für Whisper Desktop
Obwohl Whisper Desktop lebensrettend sein kann und es Ihnen ermöglicht, viel schneller mit Ihrer Stimme zu schreiben, als Sie tippen könnten, ist es alles andere als perfekt.
Während unserer Tests haben wir festgestellt, dass es gelegentlich stottert, einige Wörter überspringt und die Transkription erst dann erfolgt, wenn Sie sie erhalten Stoppen Sie den Vorgang manuell und starten Sie ihn erneut, oder bleiben Sie in einer Schleife stecken und transkribieren Sie immer wieder denselben Satz wiederholt.
Wir gehen davon aus, dass es sich hierbei um vorübergehende Störungen handelt, die behoben werden, da die eigenständige Version von Whisper nicht dieselben Probleme aufweist.
Abgesehen von diesen kleinen Problemen sollte es mit Whisper Desktop mühelos sein, Ihre Stimme in Text umzuwandeln. Dennoch haben wir bei unseren Tests festgestellt, dass die Leistung sogar noch besser sein kann, wenn ...
- Anstatt nur zwei oder drei Wörter auszusprechen und dann eine Pause einzulegen, kann Whisper Sie besser verstehen, wenn Sie länger reden. Versuchen Sie, jeweils mindestens einen ganzen Satz zu schreiben.
- Vermeiden Sie aus dem gleichen Grund, den Transkriptionsprozess wiederholt zu starten und zu stoppen.
- Wenn Sie merken, dass Sie einen Fehler gemacht haben, ignorieren Sie ihn und machen Sie weiter. Das Laden und Entladen des Sprachmodells scheint beim aktuellen Stand von Whisper und unserer verfügbaren Hardware der zeitaufwändigste Teil des Prozesses zu sein. So ist es schneller, weiterzureden und die Fehler anschließend zu korrigieren.
- Wie bei der Standalone-Version von Whisper ist es am besten, das optimale Sprachmodell für Ihre verfügbare Hardware zu verwenden. Sie können bis zu verwenden Mittel Modell, wenn Ihre GPU über 8 GB VRAM verfügt. Für weniger VRAM greifen Sie zu den kleineren Modellen. Wählen Sie nur die etwas genauere, aber auch viel anspruchsvollere Variante groß Modell, wenn Sie eine GPU mit 16 GB VRAM oder mehr verwenden.
- Bedenken Sie, dass der Transkriptionsprozess umso langsamer ist, je größer das Sprachmodell ist. Entscheiden Sie sich nicht für ein Modell, das größer als nötig ist. Sie werden wahrscheinlich feststellen, dass Whisper Desktop Sie mit den mittleren oder kleineren Modellen die meiste Zeit bereits „verstehen“ kann, mit nur ein oder zwei Fehlern pro Absatz.
Tippen Sie immer noch? Verwenden Sie Ihre Stimme mit Flüstern
Obwohl die Einrichtung einige Zeit in Anspruch nimmt, wie Sie beim Ausprobieren feststellen werden, ist die Leistung von Whisper Desktop viel besser als die meisten Alternativen, mit viel höherer Genauigkeit und besserer Geschwindigkeit.
Nachdem Sie damit begonnen haben, mit Ihrer Stimme zu tippen, sieht Ihre Tastatur möglicherweise wie ein Relikt aus längst vergangenen Zeiten aus.