Künstliche Intelligenz kann wie der Präsident klingen. Oder es kann wie du oder ich klingen. Welches Cybersicherheitsrisiko stellt also KI-Software zum Klonen von Stimmen dar?

Künstliche Intelligenz (KI) ist eine leistungsstarke Technologie, die verspricht, unser Leben zu verändern. Das war noch nie so klar wie heute, wo leistungsstarke Tools für jeden mit einer Internetverbindung verfügbar sind.

Dazu gehören KI-Sprachgeneratoren, fortschrittliche Software, die in der Lage ist, menschliche Sprache so kompetent nachzuahmen, dass es unmöglich sein kann, zwischen den beiden zu unterscheiden. Was bedeutet das für die Cybersicherheit?

Wie funktionieren KI-Sprachgeneratoren?

Sprachsynthese, der Prozess der künstlichen Erzeugung menschlicher Sprache, gibt es schon seit Jahrzehnten. Und wie jede Technologie hat sie im Laufe der Jahre tiefgreifende Veränderungen erfahren.

Diejenigen, die Windows 2000 und XP verwendet haben, erinnern sich vielleicht an Microsoft Sam, die standardmäßige Text-to-Speech-Männerstimme des Betriebssystems. Microsoft Sam erledigte die Arbeit, aber die Geräusche, die es erzeugte, waren roboterhaft, steif und unnatürlich. Die Tools, die uns heute zur Verfügung stehen, sind wesentlich fortschrittlicher, vor allem dank Deep Learning.

Deep Learning ist ein Methode des maschinellen Lernens das auf künstlichen neuronalen Netzen basiert. Aufgrund dieser neuronalen Netze ist die moderne KI in der Lage, Daten fast so zu verarbeiten, wie die Neuronen im menschlichen Gehirn Informationen interpretieren. Das heißt, je menschenähnlicher die KI wird, desto besser kann sie menschliches Verhalten nachahmen.

So funktionieren kurz gesagt moderne KI-Sprachgeneratoren. Je mehr Sprachdaten sie ausgesetzt sind, desto geschickter werden sie darin, menschliche Sprache zu emulieren. Aufgrund relativ neuer Fortschritte in dieser Technologie kann hochmoderne Text-to-Speech-Software im Wesentlichen die Klänge replizieren, mit denen sie gespeist wird.

Wie Bedrohungsakteure KI-Sprachgeneratoren verwenden

Es überrascht nicht, dass diese Technologie von Bedrohungsakteuren missbraucht wird. Und das nicht nur von Cyberkriminellen im typischen Sinne des Wortes, sondern auch von Desinformationsagenten, Betrügern, Black-Hat-Vermarktern und Trollen.

In dem Moment, als ElevenLabs im Januar 2023 eine Beta-Version seiner Text-to-Speech-Software veröffentlichte, begannen rechtsextreme Trolle auf dem Message Board 4chan, sie zu missbrauchen. Mithilfe der fortschrittlichen KI reproduzierten sie die Stimmen von Personen wie David Attenborough und Emma Watson, was den Anschein erweckte, als würden die Prominenten abscheuliche, hasserfüllte Tiraden abliefern.

Als Vize Wie damals berichtet, räumte ElevenLabs ein, dass Menschen seine Software missbrauchten, insbesondere das Klonen von Stimmen. Mit dieser Funktion kann jeder die Stimme einer anderen Person "klonen". Sie müssen lediglich eine einminütige Aufnahme hochladen und die KI den Rest erledigen lassen. Vermutlich ist die Ausgabe umso besser, je länger eine Aufnahme ist.

Im März 2023 erregte ein virales TikTok-Video die Aufmerksamkeit von Die New York Times. In dem Video waren der berühmte Podcaster Joe Rogan und Dr. Andrew Huberman, ein häufiger Gast bei The Joe Rogan Experience, zu hören, wie sie über ein „libidosteigerndes“ Koffeingetränk diskutierten. Das Video erweckte den Anschein, als würden sowohl Rogan als auch Huberman das Produkt unmissverständlich befürworten. In Wirklichkeit wurden ihre Stimmen mithilfe von KI geklont.

Etwa zur gleichen Zeit brach die in Santa Clara, Kalifornien, ansässige Silicon Valley Bank aufgrund von Fehlern im Risikomanagement und anderen Problemen zusammen und wurde von der Landesregierung übernommen. Dies war der größte Bankenzusammenbruch in den Vereinigten Staaten seit der Finanzkrise 2008, der Schockwellen über die globalen Märkte schickte.

Was zur Panik beitrug, war eine gefälschte Audioaufnahme von US-Präsident Joe Biden. In der Aufzeichnung hörte man Biden offenbar vor einem bevorstehenden „Zusammenbruch“ warnen und seine Regierung anweisen, „die volle Kraft der Medien einzusetzen, um die Öffentlichkeit zu beruhigen“. Faktenchecker mögen PolitiFact waren schnell dabei, den Clip zu entlarven, aber es ist wahrscheinlich, dass Millionen ihn zu diesem Zeitpunkt gehört hatten.

Wenn KI-Sprachgeneratoren verwendet werden können, um sich als Prominente auszugeben, können sie auch dazu verwendet werden, sich als normale Menschen auszugeben, und genau das haben Cyberkriminelle getan. Entsprechend ZDNet, Tausende von Amerikanern fallen auf Betrügereien herein, die als bekannt sind Vishing oder Voice-Phishing jedes Jahr. Ein älteres Ehepaar machte 2023 landesweite Schlagzeilen, als es einen Anruf von seinem „Enkel“ erhielt, der behauptete, im Gefängnis zu sein, und um Geld bat.

Wenn Sie jemals ein YouTube-Video hochgeladen haben (oder in einem erschienen sind), an einem großen Gruppenanruf mit Leuten teilgenommen haben, die Sie nicht tun wissen oder Ihre Stimme in irgendeiner Weise ins Internet hochgeladen haben, könnten Sie oder Ihre Lieben theoretisch in Gefahr sein. Was würde einen Betrüger davon abhalten, Ihre Stimme auf einen KI-Generator hochzuladen, zu klonen und Ihre Familie zu kontaktieren?

KI-Sprachgeneratoren stören die Cybersicherheitslandschaft

Es braucht keinen Cybersicherheitsexperten, um zu erkennen, wie gefährlich KI in den falschen Händen sein kann. Und obwohl es stimmt, dass das Gleiche für alle Technologien gilt, ist KI aus mehreren Gründen eine einzigartige Bedrohung.

Zum einen ist es relativ neu, was bedeutet, dass wir nicht wirklich wissen, was wir davon erwarten können. Moderne KI-Tools ermöglichen es Cyberkriminellen, ihre Operationen auf beispiellose Weise zu skalieren und zu automatisieren und gleichzeitig die relative Unwissenheit der Öffentlichkeit in dieser Angelegenheit auszunutzen. Außerdem ermöglicht die generative KI Bedrohungsakteuren mit wenig Wissen und Fähigkeiten Schadcode erstellen, Betrugsseiten erstellen, Spam verbreiten, Phishing-E-Mails schreiben, realistische Bilder erzeugen, und produzieren Sie endlose Stunden an gefälschten Audio- und Videoinhalten.

Entscheidend ist, dass dies in beide Richtungen funktioniert: KI wird auch zum Schutz von Systemen eingesetzt und wird dies wahrscheinlich noch in Jahrzehnten tun. Es wäre nicht abwegig anzunehmen, dass uns eine Art KI-Wettrüsten zwischen Cyberkriminellen erwartet und die Cybersicherheitsbranche, da die defensiven und offensiven Fähigkeiten dieser Tools inhärent sind gleich.

Für den Durchschnittsmenschen verlangt das Aufkommen der weit verbreiteten generativen KI nach einem Radikalen Sicherheitspraktiken überdenken. So aufregend und nützlich KI auch sein mag, sie kann zumindest die Grenze zwischen dem, was real und was ist, verwischen ist das nicht und verschlimmert im schlimmsten Fall bestehende Sicherheitsprobleme und schafft neuen Handlungsspielraum für Bedrohungsakteure In.

Sprachgeneratoren zeigen das zerstörerische Potenzial von KI

Sobald ChatGPT auf den Markt kam, nahmen die Gespräche über die Regulierung der KI zu. Jeder Versuch, diese Technologie einzuschränken, würde wahrscheinlich eine internationale Zusammenarbeit in einem Ausmaß erfordern, wie wir es seit Jahrzehnten nicht mehr gesehen haben, was es unwahrscheinlich macht.

Der Geist ist aus der Flasche, und das Beste, was wir tun können, ist uns daran zu gewöhnen. Das und hoffen, dass sich der Cybersicherheitssektor entsprechend anpasst.