OpenAI hat ChatGPT die Möglichkeit gegeben, mit einer synthetischen Stimme zu sprechen, und es kommt bald auf Ihr Smartphone.

ChatGPT soll zu einem interaktiven generativen KI-Erlebnis werden. OpenAI gab bekannt, dass der weltweit führende KI-Chatbot in der Lage sein wird, mit einer synthetisierten, vermutlich KI-generierten Stimme zu sprechen und auf Benutzeranfragen zu antworten.

Neben seiner neu entdeckten Stimme wird ChatGPT auch in der Lage sein, auf bestimmte Bilder zu antworten und diese zu diskutieren, die auf ihn hochgeladen oder mit der ChatGPT-Android- oder iOS-App aufgenommen wurden. Die Bilderkennungsfunktion ähnelt Google Lens und anderen Apps, die neuronale Netze verwenden, um Daten und Informationen genau zu erkennen.

OpenAI gibt ChatGPT eine Stimme

Am 25. September 2023, ChatGPT-Entwickler OpenAI enthüllt Es würde seinem weltweit führenden generativen KI-Chatbot eine Stimme geben. ChatGPT-Benutzer können direkt mit dem Chatbot sprechen und ihn um eine Rückmeldung bitten, sodass ChatGPT erstmals direkt mit der Stimme kommunizieren kann.

instagram viewer

Der Beispielclip von OpenAI zeigt eine Frau, die ChatGPT bittet, eine einzigartige Gute-Nacht-Geschichte zu erstellen, worauf ChatGPT ordnungsgemäß mit einer weiblichen Synthesizerstimme antwortet.

Entsprechend VerdrahtetDas neue Text-to-Speech-Modell wurde intern entwickelt. Es kann „menschenähnliches“ Audio aus Text und einigen Sekunden Beispielsprache erzeugen (unter Verwendung des OpenAI Whisper-Modells) und sprechen Sie in verschiedenen Tönen und Stilen. Eine Reihe von Sprachbeispielen finden Sie auf OpenAIs Blog.

Einige Unternehmen nutzen bereits das neue Sprachmodell von OpenAI. Spotify nutzt beispielsweise das Text-to-Speech-Modell von OpenAI, um Podcasts in verschiedene Sprachen zu übersetzen und kombiniert dabei die Sprachübersetzungsfähigkeiten von ChatGPT mit seinen neuen Sprechfähigkeiten.

Das neue Text-to-Speech-Modell von ChatGPT ist nur für Plus- und Enterprise-Abonnenten verfügbar, die das offizielle verwenden Android- und iOS-Apps und wird voraussichtlich innerhalb der nächsten zwei Wochen eingeführt (ab 25. September). 2023). Darüber hinaus ist die neue Sprachfunktion zunächst auf Englisch beschränkt, wir gehen jedoch davon aus, dass sich dies schnell ändern wird.

ChatGPT kann Bilder und Fotos erkennen und analysieren

Der zweite Teil des ChatGPT-Updates von OpenAI ist die Möglichkeit, in das Tool hochgeladene Bilder zu analysieren und zu sprechen. Die Option zur visuellen Bildanalyse wurde in den GPT-4-Update-Videos vorgestellt, wurde aber seitdem nicht mehr viel diskutiert (Abgesehen vom ChatGPT-Code-Interpreter).

Jetzt erhält ChatGPT eine ähnliche Funktionalität wie Google Lens. Sie können ein Bild auf ChatGPT hochladen oder mit der Kamera Ihres Smartphones in der ChatGPT-App ein Foto aufnehmen. Das Bild wird dann detailliert und bei Bedarf mit mehr Kontext versehen.

Es als „ähnlich wie Google Lens“ zu bezeichnen, ist wirklich ungerecht. Die Möglichkeit, über das Bild hin und her zu chatten, um mehr Informationen und Kontext zu erhalten, macht es für eine Vielzahl von Einstellungen äußerst nützlich. Es ist jedoch wichtig, das Kleingedruckte zu beachten, da OpenAI deutlich macht, dass es aus Datenschutz- und Genauigkeitsgründen die „Fähigkeit von ChatGPT, Personen zu analysieren und direkte Aussagen über sie zu machen“ eingeschränkt hat. Könnte jedoch für die Zukunft ein OpenAI-gestütztes „Who Is This“-Tool in Arbeit sein? (Hoffentlich nicht!)

Wie das neue Text-to-Speech-Modell wird OpenAI in den nächsten zwei Wochen die Bilderkennung einführen, allerdings wird sie auf allen Plattformen verfügbar sein, nicht nur in der ChatGPT-App.

Datenschutz, Sicherheit und andere Probleme

Die Auswirkungen eines sprachgesteuerten ChatGPT sind gravierend. Klar, es ist aufregend. Allerdings birgt die Möglichkeit, am Beispiel eines kurzen Ausschnitts eine einzigartig synthetisierte Stimme zu erstellen, erhebliche Datenschutz- und Sicherheitsprobleme. Das Potenzial für böswillige Akteure, diese Tools auszunutzen, ist enorm, und wie bei jedem generativen KI-Tool gilt: Sobald der Geist aus der Flasche ist, wird er auf keinen Fall wieder hineingehen. Keine noch so große KI-Regulierung durch Regierungen oder Vordenker kann das Blatt wenden.

Sogar die Warnung von OpenAI zu diesem Thema scheint das Offensichtliche zu umgehen, obwohl die Probleme erwähnt werden:

Allerdings bergen diese Funktionen auch neue Risiken, beispielsweise die Möglichkeit für böswillige Akteure, sich als Persönlichkeiten des öffentlichen Lebens auszugeben oder Betrug zu begehen. Aus diesem Grund nutzen wir diese Technologie für einen bestimmten Anwendungsfall: Voice-Chat.

Angesichts der Tatsache, dass dies nur die Spitze des Eisbergs ist, müssen Sie mit einem Widerstand gegen die neu entdeckte Stimme von ChatGPT rechnen, insbesondere einmal Es ist ein vorhersehbarer Anstieg an unappetitlichen Schlagzeilen zu verzeichnen, in denen behauptet wird, dass ChatGPT für Betrug usw. verwendet wird An.

OpenAI macht ChatGPT zur KI-App der Wahl

Je mehr OpenAI ChatGPT um benutzerfreundliche Funktionen erweitert, desto mehr wird es zur bevorzugten generativen KI-App. ChatGPT war das erste Unternehmen, das während des anfänglichen generativen KI-Booms große Berühmtheit erlangte, und ist immer noch führend Trotz der Konkurrenz durch Google Bard (und möglicherweise Google Gemini) und Anthropic wird die App nur teilweise genutzt Claude.

Solange OpenAI weiterhin Funktionen hinzufügen kann, die die Verwendung von ChatGPT einfacher machen, wird es die Menschen fesseln und seinem Ziel eines wirklich multimodalen KI-Tools immer näher kommen.