Leser wie Sie helfen, MUO zu unterstützen. Wenn Sie über Links auf unserer Website einen Kauf tätigen, erhalten wir möglicherweise eine Affiliate-Provision. Weiterlesen.

Whisper von OpenAI ist eine neue KI-gestützte Lösung, die Ihre Stimme in Text umwandeln kann. Das Beste daran ist, dass es zum Nulltarif kommt.

Es gibt jedoch einen Haken: Es ist schwieriger zu installieren und zu verwenden als ein durchschnittliches Windows-Dienstprogramm. Vor allem, wenn Sie die Tensor-Kerne Ihrer Nvidia-GPU verwenden möchten, um ihr einen schönen Schub zu geben.

Aber ärgere dich nicht. Deshalb sind wir hier! Lesen Sie weiter, um herauszufinden, wie Sie es installieren und verwenden, aber auch, wenn Sie eines besitzen, um Whisper Ihre Nvidia-GPU nutzen zu lassen.

Was ist OpenAIs Whisper?

ChatGPT ist heutzutage der letzte Schrei, und wir haben es bereits gesehen wie Sie ChatGPT von OpenAI verwenden können. Und doch ist es nicht das einzige interessante Projekt von OpenAI.

Angetrieben von Deep Learning und neuronalen Netzen ist Whisper ein natürliches Sprachverarbeitungssystem, das Sprache „verstehen“ und in Text umwandeln kann. Aber es ist auch eine eigene Sache, die zwischen allen ähnlichen Lösungen an einem Platz sitzt:

instagram viewer

  • Whisper ist eine KI-Lösung, die auf natürliche Sprache „trainiert“ ist. Es ist also besser darin, "normale" menschliche Sprache zu verstehen als ältere Lösungen.
  • Whisper verfügt weder über eine Schnittstelle noch kann es Audio aufnehmen. Es kann nur vorhandene Audiodateien nehmen und Textdateien ausgeben.
  • Da es gut darin ist, „Sprache zu verstehen“, hat Whisper auch die Superkraft der automatischen Übersetzung in einem einzigen Schritt.
  • Whisper ist kein Onlinedienst und kann vollständig offline arbeiten.
  • Wenn Sie eine relativ moderne Nvidia-GPU (GTX970 oder neuer) haben, kann Whisper im "hardwarebeschleunigten Modus" laufen, um seine Geschwindigkeit zu erhöhen.
  • Es ist nicht erforderlich, sich zu registrieren, eine Lizenz zu erwerben oder ein Abonnement zu erwerben.

Warum werden AMD-GPUs nicht unterstützt?

Damit GPUs nicht nur für Grafiken nützlich sind, müssen sie als voll programmierbare Prozessoren fungieren. Aus diesem Grund hat Nvidia CUDA entwickelt, das offiziell als „eine parallele Rechenplattform und ein Programmiermodell“ gilt. Um mehr über CUDA und verwandte Hardware („CUDA-Kerne“) zu erfahren, lesen Sie unseren Artikel auf Was sind CUDA-Kerne und wie verbessern sie PC-Spiele?.

CUDA ist eine proprietäre Nvidia-Technologie, die nur mit Nvidia-GPUs kompatibel ist. Die nächsten Alternativen für AMDs Hardware sind OpenCL und Radeon Compute Platform. Um mehr darüber zu erfahren, wie die Lösungen der einzelnen Unternehmen im Vergleich abschneiden, lesen Sie unseren Artikel auf AMD Compute Units vs. Nvidia CUDA-Kerne.

Im Vergleich zu den Alternativen gilt CUDA als ausgereifter, performanter und benutzerfreundlicher. Daher zielen die meisten Entwickler nur auf CUDA ab, was wiederum bedeutet, dass ihre Software nur die Hardwarefunktionen auf Nvidia-GPUs nutzt. Und dazu gehört Whisper.

So laden Sie Whisper herunter und installieren es

Leider ist Whisper keine eigenständige App, die Sie herunterladen, installieren und ausführen können. Es ist auf andere Software angewiesen, die ebenfalls installiert werden muss.

Um diese Anleitung für Windows einfach zu halten, verwenden wir Chocolatey ausgiebig, um die meisten erforderlichen Softwareteile zu installieren. Sehen Sie sich unseren Leitfaden an der schnellste Weg, um Windows-Software zu installieren für weitere Informationen über Chocolatey.

Für Linux und Macs sollte der Installationsprozess (mit Ausnahme der Windows-Pfadvariablen und der benutzerfreundlichen Stapeldateien, die wir erstellen) ähnlich sein.

  1. Um Whisper zu installieren und zu verwenden, müssen Sie Python und sein PIP Tool installiert und der Windows-Variablen „Path“ hinzugefügt. Informationen dazu finden Sie in unserem Artikel auf wie man Python PIP unter Windows, Mac und Linux installiert.
  2. Installieren FFMPEG durch Chocolatey mit diesem Befehl:
    Schokolade Installieren ffmpeg
    Installieren Sie auch die Python-Version mit:
    Pip3 Installieren python-ffmpeg
  3. Schließlich installieren Sie Whisper von seiner Github-Seite mit:
    pip3 installiere git+https://github.com/openai/whisper.git

Die CUDA-fähige Version von Whisper erhalten

Obwohl Whisper keine Nvidia-GPUs verwendet, ist die Fackel Paket, auf das es sich stützt, bietet eine CUDA-beschleunigte Version. Die Verwendung dieser anstelle der "einfachen" Version kann Whisper helfen, seine Transkriptionen mit Hilfe Ihrer Nvidia-GPU viel schneller fertigzustellen.

Damit Whisper die CUDA-Kerne Ihrer Nvidia-GPU verwendet:

  1. Wenn Sie bereits die "Vanilla"-Version von Torch installiert haben, deinstallieren und löschen Sie Reste davon mit:
    Pip3 deinstallieren Fackel
    Wenn es fertig ist, folgen Sie ihm mit:
    Pip Zwischenspeichersäubern
  2. Installieren Sie die CUDA-fähige Version von Torch mit:
    Pip3 Installieren Fackel Fackelvision Fackelaudio --extra-index-url https://download.pytorch.org/whl/cu117
  3. Um zu überprüfen, ob Whisper Ihre Nvidia-GPU verwenden kann, verwenden Sie:
    flüstern --Hilfe | findstr -i pytorch
    Das solltest du sehen (Standard: cuda) anstatt (Standard: Prozessor).

Was tun, wenn Torch nicht installiert werden kann

Wenn Sie während der Installation von Torch auf den Fehler „keine Version gefunden“ stoßen, müssen Sie möglicherweise eine ältere Version von Python parallel zu Ihrer aktuellen installieren.

Verwenden Sie dazu diesen Befehl:

Schokolade Installieren Python --version ALTER_VERSION --nebeneinander

Ersetzen Sie „OLDER_VERSION“ durch eine Version wie 3.10.

Verwenden Sie dann den Pfad der sekundären Version für alle „generischen“ Whisper-Befehle (z. B. „c:\Python310\Scripts\pip.exe“ statt nur „pip“).

So nehmen Sie Ihre Stimme auf

Sie können jede Tonaufnahme-App verwenden, um Ihre Stimme in eine WAV- oder MP3-Datei umzuwandeln. Windows enthält eine solche App – weitere Informationen dazu finden Sie unter wie man die Windows 10 Voice Recorder App verwendet.

Versuchen Sie es für eine Option mit mehr Funktionen Unverfrorenheit. Erfahren Sie, wie das geht, mit unserem Leitfaden auf wie man Audacity verwendet, um Audio unter Windows und Mac aufzunehmen.

So starten Sie die Transkription mit Whisper

Obwohl Whisper nicht mit einer benutzerfreundlichen GUI ausgestattet ist, ist seine Verwendung extrem einfach.

Nehmen wir an, wir haben die Datei LatestNote.mp3 die Rede auf Griechisch enthält, im Ordner c:\MeineAudiodateien, und möchten es ins Englische übersetzen und in eine Textdatei transkribieren.

  1. Wir beginnen mit dem Laufen Eingabeaufforderung oder Power Shell.
  2. Wir "wechseln das Verzeichnis", in dem die Audiodatei gespeichert ist, mit diesem Befehl:
    CD C:\MeineAudiodateien
  3. Wir setzen Whisper auf die Datei los mit:
    flüstern--ModellBase--SpracheGR--AufgabeübersetzenNeuesteAnmerkung.mp3

Nach der Verarbeitung erscheint die Textdatei (mit dem Namen „LatestNote.mp3.txt“) im selben Ordner. Öffnen Sie es in einem Texteditor wie z Notizblock um den übersetzten Text anzuzeigen.

Wir haben ein Übersetzungsbeispiel verwendet, weil die englische Transkription noch einfacher ist: Sie müssen nur die Flags "--language" und "-task" "verlieren". Für eine einfache Transkription wäre der obige Befehl also:

flüstern--ModellBaseNeuesteAnmerkung.mp3

Das „model“-Flag ist erforderlich, da Whisper eine von mehreren Optionen verwendet. Lassen Sie uns sie erweitern, um Ihnen bei der Auswahl der besten für Ihre Bedürfnisse zu helfen.

Welches Modell wählen?

Whisper bietet verschiedene Sprachmodelle an. Je größer das Modell, desto besser die Genauigkeit, aber auch die Anforderungen an die Hardware. Sie sind:

  1. Winzig.
  2. Base.
  3. Klein.
  4. Mittel.
  5. Groß.

Die meisten englischen Muttersprachler sollten damit zurechtkommen winzig oder Base Modelle. Nicht-englische Muttersprachler sehen möglicherweise bessere Ergebnisse mit größeren Modellen, wie z klein Und Mittel.

Beachten Sie jedoch, dass die mittleren und großen Modelle über 8 GB VRAM (d. h. „den Speicher Ihrer GPU“) benötigen.

Um eines davon auszuwählen, geben Sie das Modell nach dem Schalter "--model" im Befehl an:

flüstern --model winzig/klein/mittel/groß [Datei]

Zum Beispiel:

flüstern--ModellkleinMeine_Voice_Note.mp3

So optimieren Sie Ihre Transkription

Jedes Mal, wenn Sie etwas Audio transkribieren möchten, den gesamten Whisper-Befehl eingeben zu müssen, kann schnell langweilig werden. Lassen Sie uns eine global zugängliche Batchdatei erstellen, um den Prozess zu optimieren.

  1. Laufen Windows Explorer und besuchen Sie Ihr Laufwerk C:.
  2. Erstellen Sie einen Ordner für Ihre Skripts und kopieren Sie seinen Pfad in die Zwischenablage.
  3. Suchen Sie im Windows-Startmenü nach "Pfad" und wählen Sie ihn aus Bearbeiten Sie die Systemumgebungsvariablen.
  4. Finden Sie die Weg variabel unter Benutzervariablen für YOUR_USERNAME. Doppelklicken Sie darauf, um es zu bearbeiten. Klicke auf Neu, und fügen Sie den Pfad zu Ihrem Skriptordner ein. Klicke auf OK um die Änderungen zu akzeptieren.
  5. Kehren Sie im Windows Explorer zu Ihrem Skriptordner zurück. Erstellen Sie dort eine neue Batch-Datei mit dem Namen "wht.bat". Platzieren Sie diesen Befehl "darin":
    flüstern --model tiny --language de %1
  6. Erstellen Sie zwei weitere Batchdateien, "whs" und "whm".
  7. Fügen Sie dies in das erste Skript ein:
    flüstern --model small --language de %1
  8. Platzieren Sie dies in der zweiten:
    flüstern --model medium --language de %1

Herzlichen Glückwunsch, Sie haben jetzt drei Skripte zur einfachen Verwendung der kleinen, kleinen und mittleren Modelle von Whisper mit Ihren Audiodateien! So transkribieren Sie eine beliebige Audiodatei in Text:

  1. Suchen Sie die Datei mit Windows-Datei-Explorer.
  2. Rechtsklick auf eine freie Stelle und wähle Im Terminal öffnen.
  3. Geben Sie diesen Befehl ein und ersetzen Sie „wht“ durch „whs“ oder „whm“, um die kleinen oder mittleren Sprachmodelle zu verwenden:
    weißIHRE_AUDIO_DATEI.mp3

Mit Whisper in Schallgeschwindigkeit tippen

Selbst die schnellsten Zehnfachschreiber können nicht mit der Geschwindigkeit mithalten, mit der wir sprechen. Doch bis vor kurzem war Sprechen statt Tippen nicht optimal für die Erstellung von Dokumenten.

Die meisten Voice-to-Text-Lösungen lieferten mittelmäßige Ergebnisse. Sie könnten einige Lösungen finden, die es wert sind, ausprobiert zu werden, aber sie waren kompliziert in der Anwendung oder kostspielig. Zum Glück hat Whisper das alles geändert.

Nach den obigen Schritten sollten Sie in der Lage sein, Ihre Stimme mit nur einem einzigen Befehl mit hoher Genauigkeit zu transkribieren oder zu übersetzen.