Wie Deepfakes in China im Livestream Produkte anpreisen
(Bild: XiaoIce / Silicon Intelligence)
Mit nur ein paar Minuten Beispielvideo und 1000 Euro können Marken in China ihre Produkte 24 Stunden am Tag an die User bringen.
Wer um 4 Uhr morgens Livestreaming-Videos auf Taobao, Chinas beliebtester E-Commerce-Plattform, durchsieht, wird feststellen, dass dort erstaunlich viel los ist. Während die meisten Menschen schlafen, gibt es immer noch viele fleißige Streamer, die selbst in den frühen Morgenstunden Produkte vor der Kamera präsentieren und Rabatte anbieten. Doch wer genau hinschaut, wird merken, dass diese Influencer leicht roboterhaft wirken. Die Bewegung ihrer Lippen passt zwar weitgehend zu dem, was sie sagen, aber es gibt immer wieder Momente, in denen es unnatürlich wirkt.
Und das hat einen triftigen Grund: Diese Streamer sind nicht echt. Sie sind KI-generierte Klone echter Streamer. Die Verfahren zur Erstellung realistischer Avatare samt Stimmen und Bewegungen werden immer ausgereifter und erschwinglicher. Und das heißt praktisch, dass die Nutzung dieser Deepfakes auf Chinas E-Commerce-Plattformen explodiert.
Inzwischen ist das Livestreaming der dominierende Marketingkanal für traditionelle wie digitale Marken in China. Influencer auf Taobao, Douyin, Kuaishou oder anderen Plattformen machen innerhalb weniger Stunden gigantisch Geschäft. Die größten Namen können in einer Nacht Waren im Wert von mehr als einer Milliarde US-Dollar (kein Tippfehler!) verkaufen und damit den Status großer Filmstars erreichen. Gleichzeitig wird die Ausbildung der Livestream-Moderatoren, ihre Bindung an ein Unternehmen und auch die Übertragungstechnik für kleinere Marken mit erheblichen Kosten verbunden. Daher ist es viel billiger, die Arbeit zu automatisieren.
Seit 2022 bieten eine Reihe chinesischer Start-ups und großer Technologieunternehmen an, Deepfake-Avatare für E-Commerce-Livestreaming zu erstellen. Mit nur ein paar Minuten Beispielvideo und 1000 Dollar Kosten können Marken einen menschlichen Streamer klonen, der dann für sie rund um die Uhr tätig wird.
Vom Deepfake zum E-Commerce
Solche synthetischen Medien machen seit den späten 2010er-Jahren Schlagzeilen. Es ging los, so die Legende, als ein Reddit-Nutzer namens "Deepfake" Gesichter in Pornofilmen austauschte. Seitdem hat sich die Technologie weiterentwickelt, aber die Idee ist dieselbe: Mit KI-Hilfsmitteln können Gesichter so generiert oder manipuliert werden, dass sie wie bestimmte echte Menschen aussehen – und Dinge tun, die der tatsächliche Mensch nie getan hat. Die Technologie ist vor allem für ihren problematischen Einsatz in Rachepornos [1], beim Identitätsbetrug und politischen Fakes bekannt. Es gab zwar Versuche, sie auf harmlosere Weise zu kommerzialisieren, aber geglückt ist das eigentlich nicht. Doch jetzt haben chinesische KI-Unternehmen einen neuen Anwendungsfall gefunden, der durchaus gut zu laufen scheint.
Das 2017 gegründete Start-up Silicon Intelligence mit Sitz in Nanjing hat sich auf die Verarbeitung natürlicher Sprache spezialisiert, insbesondere auf Text-to-Speech-Technologien – darunter sogenannte Robocall-Tools, mit der Massenanrufe gestartet werden. Sima Huapeng, Gründer und CEO, sagt, dass sein Unternehmen das Potenzial von KI als Livestreaming-Tool erstmals im Jahr 2020 erkannt hat. Damals benötigte Silicon Intelligence 30 Minuten an Trainingsvideos, um einen digitalen Klon zu erstellen, der wie der entsprechende Mensch reden und virtuell handeln konnte. Im nächsten Jahr waren es 10 Minuten, dann drei, und jetzt wird nur noch eine Minute Video benötigt.
Und da sich die Technik verbessert hat, ist auch der Service billiger geworden. Die Erstellung eines einfachen KI-Klons kostet einen Kunden heute etwa 8000 Yuan (rund 1000 Euro). Wenn der Kunde einen komplizierteren und leistungsfähigeren virtuellen Streamer erstellen möchte, kann der Preis auf mehrere Tausend Dollar ansteigen. Diese Gebühr deckt neben der Generierung auch ein Jahr "Wartung" ab. Sobald der Avatar generiert ist, bewegen sich Mund und sein Körper im Takt des gewünschten Skripts. Während diese früher von Menschen geschrieben wurden, verwenden die Unternehmen inzwischen große Sprachmodelle, um auch diese zu erstellen.
Inzwischen müssen die menschlichen Mitarbeiter nur noch grundlegende Informationen wie den Namen und den Preis des zu verkaufenden Produkts eingeben, das generierte Skript einmal Korrektur lesen und können dann zusehen, wie der digitale Influencer live geht. Eine fortschrittlichere Version der Technologie kann sogar Live-Kommentare erkennen und passende Antworten in einer Datenbank finden, um in Echtzeit zu antworten, sodass es so aussieht, als würde der KI-Streamer aktiv mit dem Publikum kommunizieren. Das System kann sogar seine Marketingstrategie an die Anzahl der Zuschauer anpassen, sagt Sima.
Trainiert mit menschlichen Influencern
Die Livestream-KI-Klone sind auf die gängigen Skripte und Gesten trainiert, die in E-Commerce-Videos zu sehen sind, sagt Huang Wei, zuständig für das Livestreaming-Geschäft mit virtuellen Influencern beim chinesischen KI-Unternehmen Xiaoice. Das Unternehmen verfügt über eine Datenbank mit fast einhundert vorgefertigten Bewegungen für die Avatare.
"Wenn Streamer zum Beispiel um ein Abo bitten, zeigen sie mit dem Finger nach oben, denn dort befindet sich der Follow-Button auf dem Screen der meisten mobilen Livestream-Apps", sagt Huang. Ähnlich verhält es sich, wenn Streamer ein neues Produkt vorstellen: Sie zeigen nach unten zum Warenkorb, in dem die Zuschauer die Produkte finden können. Die KI-Streamer von Xiaoice replizieren all diese gängigen Tricks. "Wir möchten sicherstellen, dass gesprochene Sprache und Körpersprache übereinstimmen. Man möchte ja nicht, dass der Streamer über den Follow-Button spricht, während er in die Hände klatscht. Das würde komisch aussehen."
Xiaoice, das 2020 aus dem Microsoft Software Technology Center Asia ausgegliedert wurde, hat sich schon von Beginn an darauf konzentriert, eine menschenähnlichere KI zu entwickeln, insbesondere Avatare, die in der Lage sind, Gefühle zu simulieren. "Traditionelle E-Commerce-Websites wirken auf die meisten Kunden wie ein Regal voller Waren. Das ist kalt. Beim Livestreaming gibt es eine stärkere emotionale Verbindung zwischen dem Moderator und den Zuschauern – und sie können die Produkte besser vorstellen", sagt Huang.
Nach einem Pilotversuch mit einigen Kunden im letzten Jahr hat Xiaoice in diesem Jahr offiziell seinen Service zur Erstellung digitaler Klone für weniger als 1000 Euro gestartet. Wie Silicon Intelligence benötigt auch Xiaoice lediglich die menschlichen Streamer, damit diese ein einminütiges Video von sich selbst bereitstellen. Und wie seine Konkurrenten können auch die Kunden von Xiaoice mehr Geld für die Feinabstimmung der Details ausgeben. So hat Liu Jianhong, ein chinesischer Sportansager, während der Fußballweltmeisterschaft 2022 einen detailgetreuen Klon von sich selbst erstellt, um die Spielergebnisse und andere relevante Nachrichten auf Douyin vorzulesen.
Billiger Ersatz für menschliche Streamer
Die künstlichen Streamer sind zwar bislang nicht in der Lage, die großen echten E-Commerce-Influencer zu schlagen, sagt Huang, aber sie sind gut genug, um das Mittelmaß zu ersetzen. Erste Influencer, einschließlich derer, die ihre Videos zum Trainieren ihrer KI-Klone freigegeben haben, spüren bereits den Druck ihrer digitalen Konkurrenz. In diesem Jahr wurde es bereits schwieriger, einen Job als Livestream-Moderator im E-Commerce zu bekommen. Das Durchschnittsgehalt ist laut dem Analyseunternehmen iiMedia Research [2] im Vergleich zu 2022 um 20 Prozent gesunken.
Die Deepfake-Technologien müssen nicht perfekt sein
Das Potenzial, den Livestream während der Stunden am Laufen halten, in denen weniger Menschen zuschauen, wollen die Firmen aber nutzen. Gleichzeitig wird es schwerer, die Kosten für die Einstellung echter Streamern zu rechtfertigen. Schon jetzt werden nach Mitternacht viele Streaming-Kanäle auf beliebten E-Commerce-Plattformen wie Taobao und JD von KI-generierten Streamern bespielt. Denn Deepfake-Technologien müssen nicht perfekt sein, um Zuschauer zu täuschen. Schon im Jahr 2020 gab sich ein Betrüger als berühmter chinesischer Schauspieler aus und schaffte es damit, ahnungslosen Frauen Tausende Dollar aus der Tasche zu ziehen, die sich in seine Videos verliebt hatten. [3]
"Wenn ein Unternehmen zehn Livestream-Moderatoren einstellt, sind deren Fähigkeiten unterschiedlich. Vielleicht tragen zwei oder drei Streamer in der Spitze zu 70 bis 80 Prozent des Gesamtumsatzes bei", sagt Chen Dan, CEO von Quantum Planet AI, einem Unternehmen, das Technologien wie die von Xiaoice bündelt und an Firmenkunden verkauft. "Ein virtueller Livestream-Host kann den Rest erledigen – sechs oder sieben Streamer, die weniger zum Umsatz beitragen und einen geringeren ROI [Return on Investment] haben. Und die Kosten würden erheblich sinken."
Chen sieht in diesem Jahr bereits ein viel größeres Interesse von Marken an KI-Streamern – zum Teil, weil jeder versucht, Kosten zu senken und die Effizienz zu verbessern. Das ist die neue Devise unter chinesischen Tech-Unternehmen, da sich die Binnenwirtschaft verlangsamt hat. Chen hat inzwischen über 100 Kunden, die den Dienst von Xiaoice nutzen. Diese virtuellen Streamer haben Millionen von Dollar an Umsatz erzielt. Ein Xiaoice-Streamer erreichte in nur einer Stunde über 10.000 Yuan Umsatz. Es gibt aber auch Nachteile. Viele Kunden sind beispielsweise Möbelmarken – und obwohl die KI intelligent genug ist, um zu sprechen und Gesten zu verwenden, kann sie sich nicht wirklich auf ein Sofa setzen oder in ein Bett legen. Die Nutzer sehen also nicht, wie der Streamer die echten Produkte testet. Doch lange kann auch das nicht mehr dauern.
Auch die ganz Großen machen mit
Neben kleineren Start-ups wie Silicon Intelligence und Xiaoice testen auch große Tech-Unternehmen KI-generierte Livestreams. Alibaba, Tencent, Baidu und JD haben alle in diesem Jahr eigene Variationen der gleichen Dienste eingeführt, die es Marken auf ihren Plattformen ermöglichen, ihre eigenen KI-Streamer zu generieren. Auch Marketingunternehmen, die eine große Zahl menschlicher Streamer beschäftigen, haben den Trend erkannt. Foshan Yowant Technology, eine der führenden Livestream-Marketingagenturen, hat eine strategische Zusammenarbeit mit Xiaoice angekündigt; Silicon Intelligence hat außerdem ein Joint Venture mit dem Unternehmen hinter Viya, Chinas einstiger Livestream-Königin [4], gegründet.
Die steigende Popularität von KI-generierten Livestreams hat auch die Aufmerksamkeit von Videoplattformen wie Douyin, der chinesischen Version von TikTok, auf sich gezogen, obwohl das Unternehmen einen anderen Ansatz als andere Tech-Giganten verfolgt. Douyin ist anscheinend mehr auf Transparenz bedacht und erklärte in einem Statement von letztem Mai, dass alle von KI generierten Videos auf der Plattform klar als solche gekennzeichnet werden sollten – und dass virtuelle Influencer von echten Menschen betrieben werden müssen. Die Plattform hatte die Verwendung von aufgezeichneten Videos als Livestreams schon immer verboten. KI-generiertes Livestreaming ohne aufgezeichnetes Filmmaterial, aber auch mit wenig menschlichem Input in Echtzeit, bricht diese Regel.
Die chinesische Regierung hat in den letzten zwei Jahren mehrere Gesetze zu synthetischen Medien und generativer KI erlassen [5], die auch für die Verwendung im E-Commerce-Streaming gelten dürften. Die Auswirkungen der neuen Regierungs- und Plattformvorschriften müssen jedoch abgewartet werden, denn all das ist noch sehr neu.
Der nächste Schritt von Silicon Intelligence besteht darin, die KI-Streamer mit "emotionaler Intelligenz" auszustatten, so Sima: "Wenn es missbräuchliche Kommentare gibt, wird der Avatar traurig sein; wenn sich die Produkte gut verkaufen, wird der Avatar glücklich sein." Das Unternehmen arbeitet auch daran, dass die KI-Streamer stärker interagieren und voneinander lernen. Das Unternehmen hat von Anfang an ein faszinierendes wie zugleich erschreckendes Ziel verfolgt: Es will bis 2025 "100.000.000 siliziumbasierte Arbeitskräfte" schaffen. Bislang, so Sima, hat das Unternehmen 400.000 virtuelle Streamer geschaffen.
(bsc [7])
URL dieses Artikels:
https://www.heise.de/-9327109
Links in diesem Artikel:
[1] https://www.heise.de/hintergrund/Deepfakes-Wie-eine-KI-App-Gesichter-von-Frauen-in-Pornos-einfuegt-6191417.html
[2] https://zjnews.zjol.com.cn/zjnews/202304/t20230415_25634927.shtml
[3] https://www.sixthtone.com/news/1006292
[4] https://www.bloomberg.com/features/2020-viya-china-livestream-shopping/
[5] https://www.heise.de/hintergrund/Chinas-Algorithmenregulierung-Datenschutz-fuer-Buerger-und-Diktatoren-6330622.html
[6] https://www.instagram.com/technologyreview_de/
[7] mailto:bsc@heise.de
Copyright © 2023 Heise Medien