Die Phrasenerkennung ist nur ein Teil des Prozesses.
„Ok Google“ von der anderen Seite des Raumes zu rufen, um die Musik zu ändern oder das Licht in einem Raum auszuschalten, fühlt sich sicher an Unglaublich, aber dieser scheinbar einfache Prozess wird durch ein kompliziertes Netz von Technologien angetrieben, die dahinter arbeiten Szenen.
Fast jeder große virtuelle Assistent auf dem Markt verfügt über eine Rufphrase, mit der Sie den Assistenten wecken und ein Gespräch führen können. Aber woher wissen Sprachassistenten, wann Sie mit ihnen sprechen?
Wie funktioniert die Phrasenerkennung?
Wie oben erwähnt, verfügt jeder Sprachassistent über eine „Triggerphrase“ oder ein Aktivierungswort, mit dem Sie den Assistenten wecken und weitere Befehle erteilen können. Der Vorgang zum Erkennen dieser Phrase ist bei jedem Assistenten bis auf kleine Nuancen mehr oder weniger gleich. Allerdings können diese Nuancen den Unterschied zwischen dem beiläufigen Aussprechen des Weckbefehls und dem mehrfachen Schreien ausmachen Manchmal muss der Assistent nur weiterschlafen, was manchmal sehr nervig sein kann, besonders wenn Sie es sind
Verwenden Sie Ihren Sprachassistenten, um sich zu beruhigen.Im Allgemeinen verfügen die meisten „intelligenten“ Lautsprecher über einen kleinen Schaltkreis, dessen einzige Aufgabe darin besteht, den Weckbefehl zu erkennen und dann die restliche Hardware in Betrieb zu nehmen. Der Großteil der Verarbeitung findet in der Cloud statt, die Phrasenerkennung erfolgt jedoch aus offensichtlichen Datenschutzgründen auf dem Gerät. Die Phrasenerkennung auf Telefonen funktioniert mehr oder weniger auf die gleiche Weise.
Die Einzelheiten sind größtenteils geheim, aber diese Erkennungssysteme nutzen maschinelles Lernen und tiefe neuronale Netze (DNNs), um KI-Modellen beizubringen, Ihre Stimme zu erkennen und einen Schlüssel zu bilden. Dieser Schlüssel wird dann verwendet, um zu überprüfen, wann Sie einen bestimmten Satz gesagt haben, und alles andere wird zur weiteren Verarbeitung an die Cloud gesendet.
Google Assistant
Telefone, die die „OK Google“-Erkennung unterstützen, sind normalerweise mit einem Keyword-Spotting-System (KWS) ausgestattet, das die Phrase erkennt und dann den Rest Ihrer Suchanfrage in die Cloud überträgt. Da mobile Geräte über eine begrenzte Rechenleistung und Einschränkungen bei der Akkulaufzeit verfügen, sind diese Systeme normalerweise nicht so gut wie die, die Sie auf Google Nest-Lautsprechern finden.
Dieses KWS-System auf dem Gerät nimmt kontinuierlich Audio von den Mikrofonen des Geräts auf und stellt eine Verbindung zum Server her, wenn es eine Triggerphrase erkennt. Google nutzt außerdem die serverseitige kontextuelle automatische Spracherkennung (ASR), um die Gesamtgenauigkeit seines KWS-Systems zu verbessern. Mehr dazu können Sie hier lesen Googles Forschungsbericht [PDF].
Siri
Siri funktioniert hinsichtlich der „Hey Siri“-Erkennung genauso wie Google Assistant. Apple hat sich überraschend offen über die Funktionsweise des Systems geäußert, das einen „sehr kleinen“ Spracherkenner beinhaltet, der im Hintergrund läuft und nur auf diese beiden Wörter wartet. Dieser Detektor verwendet ein DNN, um das akustische Muster Ihrer Stimme, das für jede Instanz aufgezeichnet wurde, in eine Wahrscheinlichkeitsverteilung über Sprachlaute umzuwandeln und so im Wesentlichen einen Konfidenzwert zu generieren.
Ihr iPhone oder Ihre Apple Watch tun dies, indem sie Ihre Stimme in einen Strom von Wellenform-Samples mit einer Geschwindigkeit von 16.000 pro Sekunde umwandeln. Dies wird dann auf eine Folge von Bildern reduziert, die ein Klangspektrum von etwa 0,01 Sekunden abdecken. Anschließend werden insgesamt 20 dieser Frames dem Erkennungsmodell zugeführt, das diese Muster in eine Wahrscheinlichkeit umwandelt.
Wenn das System mit ausreichender Sicherheit feststellt, dass Sie „Hey Siri“ gesagt haben, wacht Siri auf und sendet den Rest der Anfrage an die Cloud, wo eine weitere Analyse stattfindet und welche Aktion auch immer von Ihnen angefordert wird durchgeführt.
Natürlich kommen noch weitere Maßnahmen hinzu, um die Speicher- und Akkueffizienz sicherzustellen. Aus genau diesem Grund hat der Always On Processor (AOP) Ihres iPhones Zugriff auf die Mikrofone des Geräts (auf dem iPhone 6S und höher) und ein kleiner Teil seiner Rechenleistung ist für die Ausführung des DNN reserviert. Apple befasst sich auf seiner Website für maschinelles Lernen ausführlich mit dem gesamten System. maschinelles Lernen.apple.
Alexa
Ähnlich wie Google Assistant und Siri beherbergt auch Alexa den Großteil seiner Rechenleistung nicht in einem der Echo-Lautsprecher, die Sie kaufen können. Stattdessen nutzen die Sprecher das, was Amazon „Automatische Spracherkennung“ (ASR) nennt, das gesprochene Wörter im Wesentlichen in Text umwandelt und es dem zugrunde liegenden System ermöglicht, sie zu interpretieren und entsprechend zu handeln.
ASR bildet die Grundlage für die Funktionsweise von Alexa. Auch hier gibt es ein Bordsystem, das auf die Weckwörter wartet, in diesem Fall „Alexa“, „Amazon“ „Echo“ oder „Computer“ und löst den Rest des Systems aus, wenn das vom Benutzer vorgegebene Weckwort vorliegt erkannt. Du kannst sogar Wecken Sie Ihr Alexa-Gerät mit „Hey Disney“ auf. falls Sie es wollen.
Wie bei Google Assistant können Sie das zugrunde liegende KI-Modell von Alexa trainieren, um Ihre Stimme besser zu erkennen. Bei diesem Vorgang wird ein Basis-„Schlüssel“ erstellt, mit dem das gesprochene Aktivierungswort verglichen wird. Wenn eine Übereinstimmung gefunden wird, reagiert das Gerät entsprechend.
Hören Sprachassistenten immer zu?
Wie Sie wahrscheinlich schon erraten können, ja, das sind sie. Andernfalls könnten sie die Weckwörter auf keinen Fall erkennen. Allerdings müssen Sie aus Datenschutzgründen noch nicht alle Ihre Smart Speaker wegwerfen.
Hören Sie sich alles an, was die Benutzer sagen, senden Sie es an einen Remote-Server zurück und analysieren (oder speichern) Sie es erfordert enorme Hardware- und Finanzressourcen, sodass es aus praktischer Sicht keinen Sinn mehr ergibt Perspektive. Hinzu kommen die massiven Datenschutzbedenken, mit denen sich Unternehmen wie Google, Apple und Amazon bereits auseinandersetzen, und die Idee ergibt keinen Sinn.
Dies wirkt sich auch massiv auf die Leistung und Akkulaufzeit von Telefonen mit Wake-Word-Erkennungsfunktionen aus, insbesondere bei Google Pixel und iPhones. Wenn Ihr Telefon kontinuierlich auf das hört, was Sie sagen, und die Audiodaten an einen Remote-Server zurücksendet, wird der Akku entladen und die Leistung des Geräts beeinträchtigt.
Wer verfügt über die effizienteste Phrasenerkennung und warum?
Es ist nicht einfach, objektiv zu vergleichen, welcher virtuelle Assistent objektiv die beste Phrasenerkennung hat, da alle leicht unterschiedliche Implementierungen desselben Gesamtkonzepts verwenden. Aufgrund des Vorsprungs von Google Assistant im Vergleich zu Siri und Alexa scheint Google jedoch über eine konsistentere Phrasenerkennung zu verfügen.
Obwohl Apps, die große Sprachmodelle (LLMs) verwenden, wie ChatGPT und Bing Chat, zum Mainstream werden, behauptet Google Assistant seine Position als eines der beliebtesten beliebte virtuelle Assistenten, einfach weil sie auf jedem Android-Gerät, von Smart-TVs über Auto-Stereoanlagen bis hin zu Smartphones, nur einen Fingertipp entfernt sind.
Siri und Alexa haben in dieser Hinsicht noch Nachholbedarf, aber was die Phrasenerkennung betrifft, sind sie nicht so weit davon entfernt. Dennoch haben Sie eine bessere Chance, den Google Assistant auf Ihrem Pixel von der anderen Seite des Raums aus zu aktivieren, als mit Siri auf Ihrem iPhone, obwohl Sie dies können Steigern Sie Siris Fähigkeiten mit dem Super-Siri-Modus. Da Alexa hauptsächlich auf den Echo-Lautsprechern von Amazon zum Einsatz kommt, hat es hier einen leichten Vorteil, wenn man bedenkt, dass diese Lautsprecher so konzipiert sind, dass sie die Stimme des Benutzers aufnehmen können.
KI ist ebenso gruselig wie praktisch
Es kann sehr praktisch sein, Ihren KI-Assistenten nur mit Ihrer Stimme herbeizurufen. Bei einem Feature, das sich nahtlos in unser Leben einfügt, passiert hinter den Kulissen viel, worüber die meisten von uns oft nicht nachdenken.
Allerdings bringt dieser Komfort auch das Unbehagen mit sich, dass Ihr Gerät immer zuhört, was Sie sagen. Bisher stehen Spracherkennungsfunktionen und Aktivierungswörter auf dem Gerät zwischen dem, was Ihr virtueller Assistent hört, und dem, was Sie sagen.