Die Spracherkennungstechnologie hat eine reiche Entwicklungsgeschichte, die sie zu dem gemacht hat, was sie heute ist. Es ist der Kern des modernen Lebens und gibt uns die Möglichkeit, Aufgaben einfach durch Sprechen mit einem Gerät zu erledigen. Wie hat sich diese erstaunliche Technologie im Laufe der Jahre entwickelt? Lass uns mal sehen.
1952: Das Audrey-System
Der erste Schritt zur Spracherkennung erfolgte Anfang der 1950er Jahre. Bell Laboratories entwickelte 1952 die erste Maschine, die die menschliche Stimme verstehen konnte, und erhielt den Namen Audrey System. Der Name Audrey war eine Art Verkürzung des Begriffs Automatic Digit Recognition. Dies war zwar eine wichtige Neuerung, hatte jedoch einige wesentliche Einschränkungen.
Vor allem konnte Audrey nur die Ziffern 0-9 erkennen, keine Wörter. Audrey gab Feedback, wenn der Sprecher eine Zahl sagte, indem sie 1 von 10 Glühbirnen anzündete, von denen jede einer Ziffer entsprach.
Während es die Zahlen mit einer Genauigkeit von 90% verstehen konnte, war Audrey auf einen bestimmten Stimmtyp beschränkt. Deshalb war die einzige Person, die es wirklich verwenden würde, HK Davis, einer der Entwickler. Wenn eine Zahl gesprochen wurde, musste der Sprecher mindestens 300 Millisekunden warten, bevor er die nächste sagte.
Es war nicht nur in der Funktionalität, sondern auch in der Nützlichkeit eingeschränkt. Es nützte nicht viel für eine Maschine, die nur Zahlen verstehen konnte. Eine mögliche Verwendung war das Wählen von Telefonnummern, aber es war viel schneller und einfacher, die Nummern von Hand zu wählen. Obwohl Audrey keine anmutige Existenz hatte, ist es immer noch ein großer Meilenstein in der menschlichen Errungenschaft.
Verwandt: So verwenden Sie die Spracheingabe in Microsoft Word
1962: IBMs Schuhkarton
Ein Jahrzehnt nach Audrey versuchte IBM, ein Spracherkennungssystem zu entwickeln. Auf der Weltausstellung 1962 präsentierte IBM ein Spracherkennungssystem namens Showbox. Wie Audrey bestand ihre Hauptaufgabe darin, die Ziffern 0-9 zu verstehen, aber sie konnte auch sechs Wörter verstehen: Plus, Minus, Falsch, Gesamt, Zwischensumme und Aus.
Shoebox war eine mathematische Maschine, die einfache Rechenaufgaben lösen konnte. Was das Feedback angeht, konnte Shoebox die Ergebnisse anstelle von Lichtern auf Papier ausdrucken. Dies machte es als Taschenrechner nützlich, obwohl der Sprecher immer noch zwischen jeder Zahl / jedem Wort eine Pause machen musste.
1971: Automatische Anruferkennung von IBM
Nach Audrey und Shoebox haben andere Labore auf der ganzen Welt Spracherkennungstechnologie entwickelt. Der Startschuss fiel jedoch erst in den 1970er Jahren, als IBM 1971 die erste Erfindung ihrer Art auf den Markt brachte. Es wurde das automatische Anrufidentifizierungssystem genannt. Es war das erste Spracherkennungssystem, das über das Telefonsystem verwendet wurde.
Ingenieure riefen an und wurden mit einem Computer in Raleigh, North Carolina, verbunden. Der Anrufer würde dann eines der 5.000 Wörter seines Wortschatzes aussprechen und als Antwort eine „gesprochene“ Antwort erhalten.
Verwandt: So verwenden Sie Sprachdiktat auf Macs
1976: Harpyie
In den frühen 1970er Jahren interessierte sich das US-Verteidigungsministerium für die Spracherkennung. Die DARPA (Defence Advanced Research Projects Agency) entwickelte 1971 das Speech Understanding Research (SUR)-Programm. Im Rahmen dieses Programms wurden mehreren Unternehmen und Universitäten Finanzmittel zur Unterstützung der Forschung und Entwicklung im Bereich der Spracherkennung bereitgestellt.
1976 entwickelte die Carnegie Mellon University aufgrund von SUR das Harpyien-System. Dies war ein großer Sprung in der Spracherkennungstechnologie. Die Systeme bis zu diesem Zeitpunkt waren in der Lage, Wörter und Zahlen zu verstehen, aber Harpy war einzigartig, da es ganze Sätze verstehen konnte.
Es hatte einen Wortschatz von knapp 1.011 Wörtern, was laut einer Veröffentlichung von B. Lowerre und R. Reddy, gleichbedeutend mit mehr als einer Billion verschiedenen möglichen Sätzen. In der Veröffentlichung heißt es dann, dass Harpy Wörter mit einer Genauigkeit von 93,77% verstehen konnte.
Die 1980er Jahre waren eine entscheidende Zeit für die Spracherkennungstechnologie, da dies das Jahrzehnt ist, in dem die Stimme Erkennungstechnologie, da wir in diesem Jahrzehnt die Hidden-Markov-Methode kennengelernt haben (HMM). Die treibende Kraft hinter HMM ist Wahrscheinlichkeit.
Immer wenn ein System ein Phonem (das kleinste Sprachelement) registriert, besteht eine gewisse Wahrscheinlichkeit für das nächste. HMM verwendet diese Wahrscheinlichkeiten, um zu bestimmen, welches Phonem am wahrscheinlichsten als nächstes kommt und die wahrscheinlichsten Wörter bildet. Die meisten Spracherkennungssysteme verwenden heute noch HMM, um Sprache zu verstehen.
Die 1990er Jahre: Spracherkennung erreicht den Verbrauchermarkt
Seit der Konzeption der Spracherkennungstechnologie ist es auf der Suche nach einem Platz im Verbrauchermarkt. In den 1980er Jahren stellte IBM einen Computerprototyp vor, der Sprache-zu-Text-Diktiervorgänge ausführen konnte. Es dauerte jedoch bis Anfang der 1990er Jahre, bis die Menschen solche Anwendungen in ihren Häusern sahen.
1990 stellte Dragon Systems die erste Sprach-zu-Text-Diktiersoftware vor. Es hieß Dragon Dictate und wurde ursprünglich für Windows veröffentlicht. Dieses 9.000-Dollar-Programm war revolutionär, um die Spracherkennungstechnologie an die Massen zu bringen, aber es gab einen Fehler. Die verwendete Software diskretes Diktat, Das bedeutet, dass der Benutzer zwischen jedem Wort eine Pause machen muss, damit das Programm sie aufnehmen kann.
1996 hat IBM mit Medspeak erneut einen Beitrag zur Branche geleistet. Dies war ebenfalls ein Sprach-zu-Text-Diktierprogramm, aber es litt nicht unter diskreter Anzeige wie Dragon Dictate. Stattdessen konnte dieses Programm kontinuierliche Sprache diktieren, was es zu einem überzeugenderen Produkt machte.
Verwandt: So verwenden Sie Google Assistant mit Kopfhörern
2010: Ein Mädchen namens Siri
In den 2000er Jahren explodierte die Popularität der Spracherkennungstechnologie. Es wurde in mehr Soft- und Hardware als je zuvor implementiert, und ein entscheidender Schritt in der Evolution der Spracherkennung war Siri, der digitale Assistent. 2010 führte ein Unternehmen namens Siri den virtuellen Assistenten als iOS-App ein.
Zu dieser Zeit war Siri eine beeindruckende Software, die diktieren konnte, was der Sprecher sagte und eine gebildete und witzige Antwort gab. Dieses Programm war so beeindruckend, dass Apple das Unternehmen im selben Jahr erwarb und Siri ein wenig überarbeitete, um es in Richtung des digitalen Assistenten, den wir heute kennen, voranzutreiben.
Durch Apple erhielt Siri seine ikonische Stimme (Stimme von Susan Benett) und eine Vielzahl neuer Funktionen. Es verwendet Verarbeitung natürlicher Sprache die meisten Funktionen des Systems zu steuern.
Die 2010er: Die Big 4 Digital Assistants
Derzeit dominieren vier große digitale Assistenten die Spracherkennung und Zusatzsoftware.
- Sirius ist in fast allen Produkten von Apple präsent: iPhones, iPods, iPads und die Mac-Computerfamilie.
- Google Assistant ist auf den meisten der über 3 Milliarden Android-Geräte auf dem Markt präsent. Darüber hinaus können Benutzer Befehle für viele Google-Dienste, wie Google Home.
- Amazon Alexa hat nicht viel von einer dedizierten Plattform, auf der es lebt, aber es ist immer noch ein prominenter Assistent. Es kann heruntergeladen und auf Android-Geräten und Apple-Geräten verwendet werden. und sogar ausgewählte Lenovo Laptops
- Bixby ist der neueste Eintrag in der Liste der digitalen Assistenten. Es ist Samsungs eigener digitaler Assistent und unter den Telefonen und Tablets des Unternehmens präsent.
Eine gesprochene Geschichte
Die Spracherkennung hat sich seit den Tagen von Audrey weit entwickelt. Es hat in mehreren Bereichen große Zuwächse erzielt; zum Beispiel nach Clear Bridge Mobile, profitierte der medizinische Bereich während der Pandemie im Jahr 2020 von sprachgesteuerten Chatbots. Vom bloßen Verstehen von Zahlen bis hin zum Verstehen verschiedener Variationen ganzer Sätze erweist sich die Spracherkennung als eine der nützlichsten Technologien unserer modernen Zeit.
Wir verwenden die Spracherkennung die ganze Zeit, aber wie funktioniert sie?
Weiter lesen
- Technologie erklärt
- Sirius
- Google Assistant
- Alexa
- Bixby
- Sprachbefehle
Arthur ist ein in Amerika lebender Tech-Journalist und Musiker. Er ist seit fast einem Jahrzehnt in der Branche tätig und hat für Online-Publikationen wie Android Headlines geschrieben. Er verfügt über fundierte Kenntnisse in Android und ChromeOS. Neben dem Schreiben von Informationsartikeln ist er auch in der Berichterstattung über technische Neuigkeiten versiert.
Abonniere unseren Newsletter
Abonnieren Sie unseren Newsletter für technische Tipps, Rezensionen, kostenlose E-Books und exklusive Angebote!
Klicken Sie hier, um zu abonnieren