Feltámasztották Albert Einsteint - elárasztották az Instát és a TikTokot az életre kelt régi fotók, és ez nemcsak egy játék
Az Instagramon és a TikTokon egyre több olyan reklám jön szembe, amin életre kelnek a régi fényképek. A TikTokot birtokló ByteDance kutatói is kifejlesztettek egy olyan mesterséges intelligencia-rendszert, amely egyetlen fotóból képes élethű videókat generálni. Az eredetileg csak pillanatképen látható személy a generált videón megtévesztő természetességgel beszél, énekel, gesztikulál vagy mozog. Az új AI-modell készítői szerint ez az áttörés forradalmasíthatja a digitális szórakoztatást vagy a kommunikációt. És a világhírű Einstein-portré alább látható életre keltése láttán nehéz lenne vitatni, hogy igazuk lesz.
Bár a videó hangja nem a Nobel-díjas elméleti fizikustól származik, hanem – a New York Post szerint – Jaak Panksepp neurológus és állati érzelmekkel foglalkozó kutató bő egy évtizeddel ezelőtti beszédéből vágták ki, az eredmény valóban lenyűgöző. Úgy tűnik, hogy az egyébként teljes testalakot életre keltő, OmniHuman névre keresztelt rendszer alaposan túlszárnyalhatja a korábbi AI modelleket, amelyek csak arcot vagy felsőtestet tudtak animálni a fényképekből.
„A humán animációs technológiák az utóbbi években komoly fejlődésen mentek át, de a meglévő módszerek még mindig nehezen skálázhatók általános videógeneráló modellekké, ami korlátozza a valódi alkalmazhatóságukat” – jegyzik meg tanulmányukban a ByteDance tudósai. A szakemberek meghatározása szerint „teljes körű, multimodális mozgáskondicionálású emberi videógeneráló keretrendszert” alkottak, ami egyetlen kép, valamint a mozgási jelek (ezen belül a hang, a videó vagy mindkettő) alapján hoz létre „emberi videókat”.
Így készült az új AI
Az OmniHuman vegyes adatokkal történő tanulási stratégiát alkalmaz, kihasználja a vegyes adatok skálázhatóságát, hogy leküzdje a magas minőségű adatok hiányát, ami a korábbi módszereket jelentősen visszafogta. Ezzel a ByteDance AI-ja valóban képes lehet felülmúlni a meglévő megoldásokat, például az OpenAI Soráját, hiszen tényleg rendkívül élethű videókat készít emberekről, még egészen gyenge bemeneti jelek, különösen hang alapján.
A csapat több mint 18.700 órányi, hús-vér emberekről készült videó felhasználásával képezte ki az OmniHumant, egy olyan új módszert alkalmazva, ami képes kombinálni többféle inputot, így szöveget, hangot és testmozgást. Ez a tréningstratégia teszi lehetővé, hogy az új AI jóval nagyobb és változatosabb adathalmazokból tanuljon, mint a korábbi megoldások.
Az OmniHuman ráadásul különböző bemeneti képekkel kompatibilis, és megőrzi a mozgás stílusát, például a jellegzetes szájmozgásokat. Mindemellett kiemelkedőnek tűnik akkor is, ha objektumokat kell használnia: képes olyan videókat generálni, amelyeken egy személy énekel, miközben hangszereken játszik, vagy természetes gesztikulációt végez, különböző tárgyakat tartva. Óriási előnye továbbá, hogy pózalapú videógenerálást is végrehajt, illetve együttesen vezérli a pózt és a hangot.
Ez a technológia új mérföldkő lehet az AI-alapú médiaalkotásban, és képes például beszédet mondó vagy hangszeren játszó embereket ábrázoló videók előállítására. Az OmniHuman a tesztek során több minőségi mutatóban is felülmúlta a meglévő rendszereket – emeli ki a VentureBeat, hozzátéve: a fejlesztést egyre kiélezettebb verseny hívta életre, hiszen olyan óriásvállalatok dolgoznak hasonló technológiákon, mint a Google, a Meta és a Microsoft. A ByteDance áttörése előnyt jelenthet, pláne akkor, ha beépíti azt az általa kiadott – és az USÁ-ban jelenleg nehéz helyzetben lévő – TikTok rendszerébe. Nem nehéz arra következtetni, hogy az OmniHuman ezzel a távlati céllal készülhetett.
Milyen hatással lesz a ByteDance AI-ja a tartalomgyártásra?
Bár az OmniHuman széles körben egyelőre nem hozzáférhető, a fejlesztők több tucatnyi videót tettek közzé arról, hogy a tartalomkészítők milyen lehetőségekre számíthatnak tőle. Érdemes ugyanakkor megjegyezni, hogy az AI nem feltétlenül fogja a javukat szolgálni, és erre a Forbesnak nyilatkozó szakértők is egyértelműen rávilágítottak.
„Nagyon lenyűgözőek” – mondta a ByteDance kutatóinak videóiról Freddy Tran Nager, a Dél-Kaliforniai Egyetem Annenberg Kommunikációs és Újságírói Iskolájának klinikai adjunktusa. „Ha arra gondolnánk, hogy feltámasztjuk Humphrey Bogartot, és szerepeltetjük egy filmben, nem vagyok biztos benne, hogy jól nézne ki, de egy kis képernyőn, különösen telefonon, nagyon meggyőzőek.”
Az eszköz a ByteDance-t – és ezáltal a TikTokot – egyértelműen a legrealisztikusabb AI-generált videókért folytatott verseny élmezőnyébe helyezi, hiszen a digitális alakok egyre több helyen bukkannak fel: virtuális influencerként reklámoznak termékeket, tisztviselők digitális verzióiként segítenek eligazodni a közszolgáltatások használatában, vagy éppen hírességek deepfake verzióiként lépnek kapcsolatba az emberekkel – nem egyszer komoly bajt is okozva.
Kellenek még egyáltalán humán influencerek?
Nager szerint egy olyan eszköz, amely egyetlen fotóból képes videókat létrehozni, számos felhasználási lehetőséget kínálhat: a diákok például eldönthetnék, hogy milyen formában kapják meg az információt egy online kurzuson:
– hozott fel néhány példát. Tekintettel azonban az OmniHuman nyilvánvaló kapcsolatára a TikTokkal, a szakértő azt is el tudja képzelni, hogy a kiégett tartalomgyártók a saját virtuális másukat használnák fel a videóikban, vagy
Samantha G. Wolfe, a New Yorki Egyetem Kultúra-, Oktatás- és Fejlődéskutató Intézetének adjunktusa szintén lát veszélyeket az OmniHumanhoz hasonló eszközökben. „Létrehozni valamit pusztán egy képből, és úgy megjeleníteni, mintha valóban beszélne és mozogna, technológiai szempontból lenyűgöző, de rengeteg potenciálisan negatív következménye is lehet. Egy üzleti vagy politikai vezető hamisított verziója például, ha olyasmit mond, ami nem igaz, óriási hatással lehet egy vállalatra vagy akár egy egész országra.”
Ahogy az AI által generált videók egyre kifinomultabbá válnak, úgy nőnek a kockázatok is. „Minél inkább hasonlítanak a valóságra, minél inkább úgy tűnik, mintha valódi emberek lennének, annál nagyobb a valószínűsége, hogy az emberek elhiszik, amit mondanak” – magyarázta Wolfe. A szakértő véleményét sajnos több közelmúltban történt eset is igazolja.
A tajvani voksolás napján például egy vélhetően a Kínai Kommunista Párthoz köthető csoport tett közzé mesterséges intelligencia által generált, félrevezető hangfelvételt, amelyben egy helyi politikus támogatását fejezte ki ellenfele, a Kína-barát jelölt mellett. Moldovában szintén a kampány alatt jelentek meg deepfake videók az ország elnökéről, Maia Sandutról, amint éppen lemond a tisztségéről, míg Dél-Afrikában maga Eminem „biztosította támogatásáról” az egyik ellenzéki pártot a választások előtt.
A deepfake-ek ennél is gyakrabban válnak pénzügyi bűncselekmények eszközévé. A fogyasztókat hírességek hamisított videóival verik át úgy, hogy megtévesztő befektetési lehetőségeket ajánlanak, de bizonyos vállalatokat is dollármilliós károk érhetnek deepfake csalások miatt. A Deloitte szerint a generatív AI segítségével végrehajtott csalások 2023-ban több mint 12 milliárd dolláros kárt okoztak, csak az Egyesült Államokban, és ez az összeg 2027-re elérheti a 40 milliárd dollárt.
Az OmniHuman ugyan nem az első AI-eszköz, amely egyetlen fotóból képes videókat generálni, de az mindenképpen megkülönbözteti a többitől, hogy a mögötte álló csapat hatalmas mennyiségű adathoz fér hozzá – jelentette ki Nager.
A tudós állítására reagálva a ByteDance szóvivője azt írta a Forbesnak, hogy a modellt nem a vállalat termékeiből származó adatokból képezték ki. Hozzátette: ha az OmniHuman nyilvánosan elérhetővé válik, tartalmazni fog olyan védelmi mechanizmusokat, amelyek megakadályozzák a káros vagy félrevezető tartalmak létrehozását, de olyan átláthatósági intézkedéseket is bevezetnek hozzá, amelyek egyértelművé teszik, hogy az adott tartalmat AI generálta.
Nem túl megnyugtató belegondolni, de úgy fest, igaz, hogy egyelőre az AI-kat üzemeltető cégek adott szavára vagyunk kénytelenek hagyatkozni, ha a káros hamisítványok megfékezéséről van szó. A deepfake-eket egyre nehezebb felismerni, és bár egyes közösségi médiumok és keresőmotorok tettek lépéseket a terjedésük korlátozására, az interneten elérhető hamis tartalmak mennyisége riasztó ütemben növekszik.
A Jumio ID-ellenőrző cég 2024 májusában végzett felmérése szerint az emberek 60 százaléka találkozott deepfake tartalommal az elmúlt évben, és a válaszadók 72 százaléka aggódik amiatt, hogy bármikor félrevezethetik őket. A kutatásban résztvevők többsége éppen ezért teljes mellszélességgel támogatja a mesterséges intelligencia által generált hamis tartalmak szabályozását célzó jogszabályokat.