ChatGPT hat sprechen und sehen gelernt : Aus dem Chatbot wird ein digitaler Assistent

Wie mit Alexa oder Siri: Zahlende Nutzer können künftig mit ChatGPT Gespräche führen. Der Chatbot von OpenAI reagiert auch erstmals auf Bilder. Welche intelligenten Techniken noch vorgestellt wurden.

Von Manuela Lenzen

27.09.2023, 13:03 Uhr

Wenn intelligente Technik richtig gut ist, ist sie unauffällig. Sie benötigt weder Touchscreen noch Tastatur. Stattdessen können wir mit ihr so leicht und selbstverständlich reden, wie mit unseren Mitmenschen – bestenfalls sogar noch ein bisschen leichter.

Einen Schritt auf diesem Weg hat am Montag OpenAI getan und angekündigt, ChatGPT für die zahlenden Kunden mit Sprach- und Bilderkennung auszustatten: Man könnte dem System dann zum Beispiel ein defektes Teil am Fahrrad zeigen und es fragen, wie es zu reparieren ist. Oder ein Foto von den Lebensmitteln im Kühlschrank machen und fragen, was man damit kochen kann.

Die Antwort gibt das System dann nicht als Text auf einem Bildschirm aus, sondern in gesprochener Sprache – zum Beispiel eine Schritt-für-Schritt-Anleitung für ein passendes Rezept. Oder man kann ChatGPT auch bitten, eine Gute-Nacht-Geschichte zu erzählen. Fünf Stimmen stehen zur Auswahl.

Podcasts in verschiedenen Sprachen

ChatGPT liegt auch einem Projekt zugrunde, das Spotify ebenfalls am Montag vorstellte: Mithilfe eines Features namens Voice Translation for Podcasts, wollen sie beliebte Podcasts in verschiedenen Sprachen ausstrahlen. Das klingt dann, als spräche der jeweilige Moderator oder die Moderatorin perfekt etwa Englisch, Spanisch, Französisch oder Deutsch.

Hörerinnen und Hörer in aller Welt könnten sich so authentischer als je zuvor von den Stimmen inspirieren lassen. Das unterstütze die Mission von Spotify, das Potenzial der menschlichen Kreativität zu entfesseln, so Ziad Sultan, Senior Director und Product Manager von Spotify, im Blog des Unternehmens.

Auch Eleven Labs, ein Start-up aus San Francisco, hat ein KI-Modell vorgestellt, das fließend in 30 Sprachen kommunizieren kann. Der Verlag Lukeman Literary generiere damit Hörbücher in Minutenschnelle, heißt es auf der Homepage des Unternehmens. Man füttert das System mit dem digitalen Text, sucht eine Stimme und eine Sprache aus und speichert das Ergebnis als Audiodatei.

Avatare, die aussehen wie Menschen

Kombiniert mit Bildsoftware, die auch die Lippenbewegungen synchronisiert, entstehen Avatare, die immer überzeugender in immer mehr Sprachen auftreten. In China sind nach einem Bericht von „Technology Review“ bereits rund um die Uhr virtuelle Influencer am Werk. Mithilfe von Übersetzungssystemen steht ihnen der Weltmarkt offen.

Nicht nur Faszination, auch Angst vor dem Missbrauch einer Technologie, die sich immer schwerer zu erkennen gibt, begleitet diese Entwicklung, kann sie aber nicht erkennbar bremsen oder einhegen: Fakes, die Menschen scheinbar Dinge sagen lassen, die sie nie gesagt haben oder gesagt hätten. Schockanrufe, in denen scheinbar Verwandte mit ihrer eigenen Stimme von Unglücksfällen berichten, aus denen der Angerufene sie durch Geldüberweisungen retten soll.

Der (kriminellen) Fantasie sind kaum Grenzen gesetzt. Im Gegenzug könnte das Gespräch von Angesicht zu Angesicht eine ganz neue Bedeutung gewinnen.

Zur Startseite

showPaywall:: false
isSubscriber:: false
isPaid:
showPaywallPiano:: false