Datum zveřejnění: 
19. 8. 2019

Svým posledním kouskem vzbudil v Česku žijící tvůrce takzvaných deepfake videí rozruch a pronikl na stránky světových médií včetně britského deníku The Guardian. Video, kde se obličej komika Billa Hadera promění v tvář Toma Cruise pokaždé, když začne Hader herce imitovat, se na YouTube objevilo teprve před dvěma týdny. Od té doby nasbíralo víc než čtyři miliony zhlédnutí a tisíce komentářů. V nich se mísí obdiv ke kvalitě zpracování se zděšením z věrohodnosti celého skeče. 

„Přechod mezi tvářemi je naprosto nepatrný! Skvělá práce,“ vzkazuje jeden z nejoblíbenějších příspěvků. „Ježíši Kriste, bojím se. S touto technologií skončí svět,“ obává se manipulací další komentující, jehož příspěvek si vysloužil stovky „lajků“. 

Sám autor videa se dušuje, že nechce strašit lidi. „Jsem jen uživatelem technologie, kterou vynalezl někdo jiný a existuje už pár let. Deepfake technologie je nástroj, který využívám svým způsobem. Byl zneužitý už dávno, v pornovideích. Pokud něco dělám, tak napravuji špatnou pověst této technologie,“ odpověděl v písemném rozhovoru pro Deník N autor videa, který si říká Tom. Své pravé jméno zveřejnit nechce: „Nepotřebuji, aby mi lidé šťourali do soukromí. Jméno není podstatné. Mám svůj pseudonym a svoji tvorbu.“ 

Živí se prací pro herní a filmový průmysl, kde se zabývá právě skenováním a zpracováním tváří. Profese je mu zároveň koníčkem: na YouTube kanálu nazvaném Ctrl Shift Face už zveřejnil přes dvacet videí, kde si pohrává s filmovými scénami nebo replikami z diskusních pořadů. Jednou vymění tváře hercům seriálu Kancl, jindy zase namontuje do bojové scény z filmu Matrix hlavní postavě obličej herce Bruce Leeho.

„Začal jsem s tím tak, že jsem sám sebe montoval do různých scének pro pobavení přátel. Jelikož byly moje deepfakes kvalitnější než většina těch, které jsem viděl na internetu, udělal jsem si YouTube kanál,“ vysvětluje Tom. Znepokojující i zábavná videa s proměňujícími se obličeji se naučil vyvářet sám, sérií pokusů a omylů. Nemohla by ale vzniknout bez kvalitního počítače, který využívá pro svou práci. „Špatný deepfake je snadné vytvořit. Ten kvalitní už je o něčem jiném,“ předesílá. 

Klíčem pro kvalitní fake jsou kvalitní data 

Jedno video zpravidla vytváří tři až pět dní. Pracuje s programem DeepFaceLab, který funguje na bázi otevřeného zdrojového kódu. Klíčem k přesvědčivé videomontáži je použití záběrů nebo fotek s vysokým rozlišením, aby mohla umělá inteligence pracovat s dostatečně objemným datovým balíkem. „Proto je těžké udělat videomontáže s historickými postavami, například s Churchillem. Není pro to dostatek dat,“ vysvětlil deníku Guardian Tom. 

Také jeden z největších českých odborníků na zpracování obrazu, Daniel Sýkora z ČVUT v Praze, oceňuje kvalitu technického zpracování videa s Tomem Cruisem. „Úspěchu napomáhá zejména relativně nízké rozlišení a celková neostrost obrazu doplněná o kompresní artefakty, které maskují jemné detaily, jež by jinak upozornily na falzum. V několika pozicích jsou ale vidět znatelné návraty do původní identity a je také patrné, že barva kůže na tváři nesedí se zbytkem hlavy, což by mělo připadat podivné i laikovi,“ hodnotí Sýkora. 

Jak vzniká deepfake video? 

Prvním krokem je získání videozáznamu s hovořící osobou, jejíž identitu chceme přenést, následuje extrakce regionu s obličejem a jeho zarovnání. V této fázi je dobré eliminovat případné zákryty, rozmazané snímky či extrémní pózy. Podobným způsobem se postupuje i v případě cílové sekvence. Následně se vytvoří zarovnané páry podobných póz a trénuje se hluboká neuronová síť, jež následně dokáže pro vstupní obrázek obličeje původní identity vygenerovat jeho variantu v identitě cílové. Výsledný změněný obličej se následně zasadí do videozáznamu. Zde je snaha eliminovat případné viditelné švy a fotometrické nekonzistence, což se ne vždy daří. 

Co je program DeepFaceLab, v němž Tom videa vytvářel? 

Je ukázkou využití hluboké neuronové sítě trénované na větší sadě zarovnaných párů původního a cílového obrazu. K zarovnání se používá automatických detektorů významných lokací na tváři (například kontury oči, úst, nosu a brady). Ty je také třeba trénovat na velkých sadách dat, kde každý trénovací pár obsahuje původní obrázek a ručně specifikované pozice významných lokací. 

Daniel Sýkora, ČVUT v Praze 

V souvislosti s podobně přesvědčivými videi se mluví o zneužití technologie pro šíření dezinformací. Vývojář Tom si ale od takových debat drží odstup: nebojí, že by jeho práce mohla být zneužitelná v dezinformačních kampaních. „Nevím, jak by to bylo možné, mojí prací jsou má konkrétní videa. Já nejsem vývojář softwaru, já ho jenom využívám,“ podotýká v rozhovoru s tím, že všechna svá videa navíc opatřuje upozorněním, že se jedná o montáž. 

Je přesvědčený, že nástup deepfake videí pro svět dezinformací nic velkého neznamená – lidé, kteří věří konspiračním teoriím a čtou fake news, jim budou věřit nadále. „Absolutně je nezajímá, jaký je zdroj zprávy a zda je to skutečně pravda. Pro ně je pravda pouze to, co potvrzuje jejich přesvědčení. Přesně tito méně inteligentní lidé jsou cílem dezinformačních kampaní,“ říká Tom.
Věří také, že na rozdíl od dezinformačních článků lze zmanipulované video snadno vyvrátit – stačí jej porovnat s originálem nebo sledovat určité tvary. Poukazuje například na hoax šířený koncem loňského roku podporovateli amerického prezidenta Donalda Trumpa: ti tvrdili, že reportér CNN Jim Acosta během tiskové konference nevybíravě sáhl na stážistku Bílého domu, při bližším zkoumání ale vyšlo najevo, že se mu žena ve skutečnosti snažila vzít mikrofon. Připomíná i virální video, na němž demokratická politička a předsedkyně Sněmovny reprezentantů USA Nancy Pelosiová při své řeči působí opile. Zjistilo se, že video pouze někdo zpomalil. 

„Přesně to jsou hoaxy, které se velmi rychle a snadno vyvrátily. Když však někdo napíše vymyšlený článek, který je neověřitelný, a tím pádem ho lze jen těžko vyvrátit, je to podle mě nebezpečnější. Hlavně proto, že takový článek je velmi jednoduché napsat. Vytvořit ale kvalitní deepfake je mnohem náročnější,“ myslí si Tom. Dodává, že v současnosti existují sítě umělé inteligence na detekci deepfake manipulací a vývoj takových systémů bude nadále pokračovat. Odhalit podvržené video tak podle něj může být snadné. „Svět nekončí. A pokud moje videa někomu otevřou oči, vidím to jako klad,“ píše vývojář. 

Má sice pravdu v tom, že zmíněné podvrhy z USA byly rychle odhalené. Nicméně šlo o velmi sledované kauzy, o které se zajímalo velké množství novinářů i široká veřejnost. Při lokálních, nízkoprofilových kauzách s regionálním dosahem se však na podvrh může přijít až po delší době. 

Čemu věřit? 

Neškodnost zmanipulovaných videí ve srovnání s psanými falešnými zprávami zpochybňuje odborník na dezinformace Jakub Kalenský z think tanku Atlantic Council. „Do značné míry bude záležet i na reakci našeho informačního systému, kam spadají nejen média, ale i vláda a státní správa. Pokud dokáže informační systém nový fake odhalit včas, tedy ještě předtím, než toxická zpráva stihne otrávit příliš velký počet lidí, může vyvrácení, tedy očkování neinfikovaných konzumentů, přijít taky včas. Pokud přijde reakce pozdě, když už dezinformaci bude věřit příliš velký počet lidí, může samozřejmě takový fake napáchat škody,“ reaguje Kalenský. 

Je navíc přesvědčený, že když se do šíření falešných videí zapojí i mainstreamová média, mohou ovlivnit například volební kampaň. „Připomeňme si naši prezidentskou volbu a dezinformace poškozující kandidáta Drahoše – kdyby je posílilo nějaké deepfake video, v němž se ke svým údajným hříchům bude sám pan Drahoš přiznávat, bezpochyby by to takovou dezinformační kampaň posílilo,“ odpovídá Kalenský na otázku, zda lze u velmi sledované kauzy předpokládat, že bude falešné video rychle odhaleno. Expert navíc upozorňuje na to, že rychlé vyvrácení nepravdy se může minout účinkem. 

Část publika totiž dezinformace sdílí i po jejich vyvrácení – buď se k nim pravdivá informace nedostane, nebo jí neuvěří. „Konzumenti dezinformací dodnes šíří zjevná falza, ať už jde o vymyšlené citáty Wericha nebo o podvržené články Josefa Klímy o Karlu Schwarzenbergovi, a je jim úplně jedno, že jde o odhalené podvrhy. Dezinformační ekosystém bude tato falza používat, protože je to prostě v jeho zájmu,“ dodává odborník na dezinformace. 

Ostražitost je potřeba 

Ostražitost před takovou technologií je na místě i podle odborníka na kybernetiku Michaela Šebka. Dodává ale, že s obavami to není třeba přehánět. „Je to prostě jen další pokrok technologie, který urychluje a rozšiřuje možnosti: pro ty zlé i pro ty dobré! Velké nebezpečí asi nehrozí, pokud se bude vědět, že jde o falzifikát. Scarlett Johansson asi její ‘deepfake porno‘ pořád štve, ale boj proti němu už vzdala. Jednak proto, že marný, když stejně všichni vědí, že je to podvod. Horší to bude, až bude někdo deepfake považovat za pravdu. Ještě horší, když mu na pravdivosti nebude vůbec záležet!“ popisuje Šebek.

Upozorňuje také, že proti zneužití videí se dá technicky bránit. „Obranou je vkládat do obrázků i videí neviditelný kód, který by úpravy porušil. Nebo použít nějaký elektronický podpis prokazující originalitu a pravost. Pak se rozpozná sebemenší změna, kterou by někdo udělal – i změna pouhého jednoho bitu,“ říká Šebek. 

Navíc dodává, že kdykoli se v historii objevila a rozvíjela nová zbraň, současně se objevily a rozvíjely i protizbraně. „Dneska umějí neuronové sítě stále lépe rozpoznat na obrázku lidi, ale jiné neuronové sítě se rychle učí ty rozpoznávací systematicky oblbnout. Podobné to bude i u deepfake. Jak se jedna neuronová síť – ta fakeová – učí vyrábět stále lepší falzifikáty, učí se je ta druhá – rozpoznávací – stále lépe poznat. Obě se zdokonalují navzájem, jak proti sobě hrají. Která zrovna kdy vyhraje, závisí na mnoha věcech – třeba na konkrétním nastavení algoritmů, které je stále hodně inženýrské či umělecké spíš než vědecké či matematické,“ dodává. 

Také podle Daniela Sýkory platí, že ač je kvalita falzifikátů videí s lidskými tvářemi na dobré úrovni, technologie má stále své rezervy. „Nemyslím si tedy, že by v dohledné době hrozilo bezprostřední nebezpečí generování těžko rozpoznatelných fakenews,“ uzavírá odborník. 

Jaké jsou zatím limity technologie? Jak lze podvrh odhalit? 

Co se týče lidských tváří, bývá kvalita falzifikátů na dobré úrovní. V určitých vybraných případech může i expert zaměnit originál s podvrhem. Jedná se ale většinou o krátké úseky maskované nízkou kvalitou obrazu. V delších záznamech s vyšším rozlišením a nižším stupněm komprese lze podvod rozpoznat většinou velmi rychle při pohledu na úroveň jednotlivých obrazových bodů. Také se často vyskytuje problém s konzistencí při zasazení modifikovaného obličeje do původní sekvence. Zde většinou falzum rozpozná i laik. Navíc v obecném případě, tedy například problém změny vzhledu celé postavy jsou zatím technické možnosti velmi omezené a kvalita významně pokulhává za tvářemi. 

Daniel Sýkora, ČVUT v Praze 

Problém však jeho kolega, kybernetik Michael Šebek, vidí v tom, že mnoho lidí ani po odhalení podvrhu nemusí věřit, že bylo video upravené. Řešení je podle něj jinde: „Rozvíjet kritické a logické myšlení a vychovávat lidi, aby hned nevěřili všemu, co vidí. Aby si všechno ověřovali, o všem přemýšleli. Což vede k mému oblíbenému tématu: nutné změně vzdělávání a škol,“ dodal Šebek. 

Tom vyzývá k tomu, aby se podobné problémy řešily globálně. Začít je podle něj třeba u Facebooku. „To je hlavní platforma na šíření dezinformací a používání cílených placených reklam, které jsou financované kdovíkým. Nebo si vezměte celý skandál Cambridge Analytica (společnost, která zneužívala data milionů voličů, aby přesně zacílila politickou reklamu, pozn. red.). Co se však dělá pro to, aby se tomu do budoucna předešlo? Pokud se nedá Facebook regulovat, měl by se zrušit,“ říká Tom. 

Jak se podle něj tedy vyhnout manipulacím? „Přesně, jako doteď. Číst zprávy z renomovaných ověřených zdrojů, zjišťovat si pravdivost podezřelých či kontroverzních informací. Ale čtenáře pochybných pravicových zdrojů a ruské propagandy takto nepřesvědčíte. Tam je potřeba řešit samotný zdroj. Facebook. Jsem ze svobodu slova. Ale nejsem za svobodu lži,“ píše Tom. 

Muž působící v herním a filmovém průmyslu předpokládá, že deepfakes se už brzy ve filmech stanou realitou. „Je to ideální nástroj například na vyměnění tváře kaskadéra za herce, kterého zastupuje. Nebo na omlazení herců či oživení zesnulých herců,“ vyjmenovává možnosti využití.

Autor: 
Adéla Skoupá
Zdroj: 
denikn.cz