Deepfake-Musik imitiert den Stil eines bestimmten Künstlers, einschließlich seiner Stimme. Wie ist es möglich, dass es so echt klingt?

Musik konnte sich lange Zeit der Welt der Deepfakes entziehen, weil es einfach zu kompliziert war, jemandes Stimme zu synthetisieren. Das änderte sich mit den Fortschritten in der KI-Technologie. Das Ergebnis sind Stimmklone berühmter Künstler, die zur Produktion neuer Gesangsspuren verwendet werden können.

Da KI-Tools für Durchschnittsbürger immer zugänglicher werden, wird Deepfake-Musik zu einem wachsenden Problem. Hier ist, was es ist und wie es erstellt wird.

Die Entwicklung von Deepfake-Musik

Wenn Sie Ihren Lieblingskünstler auf Spotify oder YouTube singen hören, denken Sie kaum, dass es sich um eine Fälschung handeln könnte, aber die KI-Fortschritte haben dies zur Realität gemacht. Neben gefälschten Bildern und Videos existiert auch Deepfake-Musik.

KI-Tools können die Singstimme einer Person originalgetreu reproduzieren, indem sie ein KI-Modell mit Audio-Samples ihrer Stimme trainieren. Von Fans des Künstlers oder Fans der KI-Technologie geschaffen, versuchen immer mehr Menschen, stimmliche Doppelgänger zu erschaffen.

instagram viewer

Die Leute versuchen seit Jahren, die Stimme mit einem Computer zu synthetisieren, und das geht bis ins Jahr 1961 zurück, als der IBM 7094 der erste Computer war, der sang. Sie können die hören computergenerierte Stimme, die Daisy Bell in einem YouTube-Clip singt und versuchen Sie sich vorzustellen, wie erstaunlich dieser Moment war.

Spulen wir ins 21. Jahrhundert vor und die KI-Technologie hat die Qualität der synthetisierten Stimme verbessert und erlaubte uns, Dinge zu tun, die die meisten von uns bisher nie für möglich gehalten hätten, wie das Klonen der Stimmen von Menschen.

Schauen Sie sich einfach diesen Clip an, in dem Roberto Nickson seine Stimme in den Künstler und Rapper Kanye West verwandelt. Das Ansehen des Videos fühlt sich unheimlich an, es klingt wirklich wie Kanye, aber es ist auch unangenehm anzuschauen. Ohne zu viel darüber nachzudenken, wie der Künstler denken oder fühlen könnte, und ohne Erlaubnis, könnte es als Aneignung der Stimme von jemandem angesehen werden.

Im Gegensatz zur Computerwiedergabe von Daisy Bell ist das Klonen von KI-Stimmen in der Lage, die genaue Ähnlichkeit von zu reproduzieren die Stimme einer Person, die alle subtilen Unterschiede in der Klangfarbe enthält, die uns helfen, die einzigartige Stimme einer Person zu identifizieren Profil. Unlizenziert und ohne Erlaubnis gemacht, hat Deepfake-Musik jedoch einige ernsthafte Probleme, auf die wir später noch eingehen werden.

Wie Deepfake-Songs erstellt werden

Es werden verschiedene Methoden verwendet, um Deepfake-Songs zu erstellen, aber viele von ihnen verwenden KI-Technologie. Open-Source-Projekte wie SoftVC VITS Singing Voice Conversion-Projekt auf GitHubhaben beispielsweise ein KI-Modell entwickelt, das das tut, was sein Name verspricht: ein Audio-Sample in eine Singstimme umwandeln.

Dieses Modell nimmt eine vorhandene Audiodatei von jemandem, der singt, und wandelt sie in die Stimme einer anderen Person um. Dinge wie der Text und der Rhythmus der Originalstimme werden beibehalten, aber der Ton, die Klangfarbe und die persönlichen Stimmqualitäten werden in die durch den Trainingsdatensatz angegebene Stimme konvertiert.

Denken Sie daran, dass andere Teile des Songs möglicherweise immer noch manuell produziert werden, z. B. das Erstellen von Beats und Melodien im gleichen Stil und Genre wie der ursprüngliche Künstler.

Um einen Deepfake von Kanye Wests Stimme zu erstellen, musste ein Datensatz eines Drittanbieters in das VITS-Modell von SoftVC eingegeben werden, das Proben der echten Kanye-Stimme enthalten würde. Die Datei, die den Datensatz enthält, wurde inzwischen vom Autor entfernt, was nicht verwunderlich ist, wenn man bedenkt, dass mit nicht autorisierten Datensätzen möglicherweise ein düsteres Rechtsgebiet verbunden ist.

Es wurde zwar nicht in eine kommerzielle App umgewandelt, aber Sie können eine Version von finden SoftVC VITS-Modell auf Google Collab das ist benutzerfreundlicher.

Bis die ethischen und rechtlichen Grenzen gesetzt sind, ist es möglich, dass benutzerfreundlichere Voice-Cloning-Apps dies tun werden Pop-up – nicht allzu anders als die Drayk.it-App, die eine Textbeschreibung in Lieder verwandelte, die nach dem Künstler gestylt waren Erpel. Später wurde es stillgelegt.

Einige andere Tools, die zum Erstellen von Deepfake-Musik verwendet werden, umfassen große Sprachmodelle wie ChatGPT, mit dem Texte im Stil eines berühmten Künstlers geschrieben werden können; Und Die Jukebox von OpenAI Und Googles MusicLM, die generative KI-Modelle sind, die Musik in roher Audioform komplett von Grund auf neu erstellen können.

Kannst du den Unterschied hören?

Ein von einem anonymen Benutzer namens Ghostwriter erstellter Titel wurde im April 2023 auf TikTok viral, nicht zuletzt weil er Texte enthielt, die von den Künstlern Drake und The Weeknd gesungen wurden. Natürlich waren das nicht die echten Stimmen der Künstler, sondern falsche.

Wäre der Gesang nicht eine so gute Kopie des Originals gewesen, wäre es vielleicht kein Hit geworden. Mit ein bisschen Recherche konnte man ziemlich schnell herausfinden, ob es echt war oder nicht, aber nur mit den Ohren konnte man nur raten, ob es echt war.

Wenn Sie wollen Identifizieren eines KI-generierten Bildes Es gibt zumindest ein paar visuelle Aberrationen, nach denen Sie suchen könnten. Was Audio betrifft, so bedeuten Zeichen wie Low-Fidelity-Audio oder Störungen im Track nicht viel, da dies kreative Entscheidungen sind, die in der Musikproduktion ständig verwendet werden.

Noch interessanter ist, dass viele Leute das Lied wirklich mögen, selbst nachdem sie entdeckt haben, dass es nicht die echten Stimmen von Drake oder The Weeknd waren. Bewunderer wiesen darauf hin, dass nicht alles einfach mit KI generiert wurde und dass echtes Können und Arbeit darin steckten, die Texte zu schreiben, die Beats zu komponieren und das Ganze zusammenzusetzen.

Der Track schaffte es auf Spotify und YouTube, bevor er in den folgenden Tagen entfernt wurde, aber nicht bevor die Fans den Song als mp3 heruntergeladen hatten. Sie können immer noch Kopien des Songs online finden, wenn Sie nach „Heart On My Sleeve, Drake ft. Die weeknd".

Schon bald wird es fast unmöglich sein, den Unterschied zwischen KI-generierten Stimmklonen und der echten menschlichen Stimme zu erkennen. Vor diesem Hintergrund fragen sich die Leute, ob dies überhaupt eine gute Nutzung der KI-Technologie oder sogar eine legale Nutzung ist.

Probleme mit Deepfake-Musik

Auf der einen Seite hören die Leute gerne von Fans erstellte Mashups ihrer Lieblingskünstler und respektieren die Kreativität, die in die Realität einfließt. Aber die Fähigkeit, überhaupt Stimmklone zu haben, hängt von Datensätzen ab, die autorisiert sein können oder nicht.

Ohne Erlaubnis werden Proben der Stimme einer Person in einem Datensatz gesammelt, der dann zum Trainieren eines KI-Sprachumwandlungsmodells verwendet wird. Es ist ähnlich wie das Problem von Künstler, die ihre Bilder aus Trainingsdatensätzen entfernen möchten die zum Trainieren von KI-Bildgeneratoren wie Dall-E oder Midjourney verwendet werden.

Auch das Urheberrecht ist nicht ganz darauf vorbereitet, mit Deepfake-Musik umzugehen. Im Jahr 2020 scheiterte der Künstler Jay-Z bei dem Versuch, YouTube zu zwingen, KI-generierte Audiodaten von ihm zu entfernen, in denen er Zeilen aus William Shakespeares Monolog „To Be or Not to Be“ rappte.

Wenn ein Deepfake-Song auf Spotify oder YouTube hochgeladen wird, stellt sich auch die Frage, wer damit Geld verdient. Sollte man in der Lage sein, Geld mit einem Song zu verdienen, der die Stimme eines anderen fast genau kopiert?

Holly Herdon ist eine Künstlerin, die versucht hat, ein System zu schaffen, mit dem Menschen sie im Austausch dafür entschädigen können, dass sie ihr Stimmmodell verwendet, um Originalarbeiten zu schaffen. Während andere Künstler wie Nick Cave haben gegen KI ausgesprochen, Schreiben:

Songs entstehen aus Leiden, womit ich meine, dass sie auf dem komplexen, inneren menschlichen Schöpfungskampf basieren und, nun ja, soweit ich weiß, fühlen Algorithmen nicht.

Manchmal, KI-generiertem Text kann es an Kreativität fehlen insgesamt aber sie sind immer noch online gepostet. KI könnte zu einer Menge schlechter Musik führen, in die nur sehr wenig Aufwand gesteckt wurde.

Ein Gleichgewicht zwischen Musik und KI finden

Deepfake-Musik wird mit KI-Tools und KI-Modellen erstellt, die mit nicht autorisierten Datensätzen trainiert wurden. Einige Modelle sind Open Source und frei zugänglich, während andere versucht wurden, sie in eine benutzerfreundliche App zu packen.

Da immer mehr Menschen Deepfake-Musikmodelle oder -Apps in die Hände bekommen, lohnt es sich, über die Auswirkungen auf den Künstler nachzudenken. Das Einholen der Zustimmung für Trainingsdatensätze und die Entschädigung des Künstlers sind nur einige der Probleme, die sich bei der KI-Musiktechnologie abzeichnen.