Loňský rok přinesl rozšíření tzv. multimodálních modelů. Ty umí pracovat nejen s textem, ale i s obrazem a zvukem a umožňují vytvářet videa. Pokrok s sebou ale přinesl také obavy ze zneužívání takto uměle vytvořených videí. V roce 2024 se také rozšířilo používání menších jazykových modelů. Ty největší jako Chat GPT nebo Gemini umí odpovídat na nejrůznější dotazy, Třeba od toho, co uvařit k večeři, jak naprogramovat vlastní verzi šachu, až po to, jak vysvětlit školákům teorii evoluce. Jejich provoz je ale nákladný a pro menší specifické úkoly tak mohou být lepší malé specializované modely. A více o tom, kam se posune vývoj a využití umělé inteligence v roce 2025, teď řekne více výzkumník Jakub Mareček z Centra umělé
inteligence Fakulty elektrotechnické ČVUT.
Co vy považujete za největší milníky nebo posuny ve vývoji umělé inteligence v tom loňském roce?
Já myslím, že to vaše shrnutí bylo velice pěkné. V zásadě můžeme říct, že na úrovni textu velké jazykové modely dneska zpracovaly veškerý veřejně dostupný text a podstatnou část i těch neveřejně dostupných textů, které jsou třeba majetkem nějakého nakladatelství nebo vydavatelství novin nebo podobně. Ta velká výzva, která tam zůstává, tak je zpracování například těch videí, kterých přibývá na YouTube neuvěřitelné množství co sekundu a potom hloubka porozumění tomu materiálu, který je zpracováván tak, aby se člověk posouval od těch bezprostředních odpovědí toho, čeho by byl člověk schopen ve zlomku sekundy, k odpovědím, které by si člověk musel promyslet v průběhu třeba sekund nebo minut.
My se tady bavíme o těch věcech, které mohou využívat laici, ať ty textové modely, zkrátka chatovat si s umělou inteligencí nebo ji požádat, ať vytvoří nějaké video obrázek. Ale jak se vyvíjí umělá inteligence v těch technologických firmách nebo obecně ve firmách nebo ve službách, ve věcech, do kterých běžný člověk jako úplně nevidí?
Řada i českých technologických firem už si licencovala využití jednoho z těch velkých jazykových modelů pro práci s kódem pro programování. A myslím že zjišťují, většina z těch uživatelů, že to může být užitečné, že to může být dobrý rádce, zlý pán, pokud tomu člověk dává tady tu příležitost napovědět, takže je to často dobrá nápověda. Ale musí být schopen právě podobně jako u těch dezinformací, které nachází na internetu, tak vyhodnotit, jestli ta nabízená odpověď je korektní nebo je špatná. Pokud je špatná, tak často může být špatná i ve velmi detailních částech, které člověk nevidí hned na první dobrou.
To znamená, stále platí, že prověřovat ne úplně nedůvěřovat všemu, co vytvoří umělá inteligence.
Prověřovat učitě. Tady u té části, které by se řeklo generativní umělá inteligence, velké jazykové modely a podobně, tak za tím je něco, čemu by šlo porozumět jako takovému vyhledávači. Vezme to nějaký kousek textu, nějaký kousek obrázku z různých míst a není tam nějaká složitější úvaha zatím. To je něco, co se bude v tom nadcházejícím roce daleko víc objevovat, ta schopnost uvažovat nad tím kouskem textu nebo mnoha kousky textu. Ale ta úvaha jako taková tam dneska u většiny těch systémů není ani pokud generují kód pro firmy nebo ani pokud generují informace o tom, co vařit na obě večeři nebo oběd pro laiky.
Máte tedy na mysli ty kauzální modely, které už v podstatě začnou uvažovat trošku jako člověk, že jenom nehledají tu nejvíce pravděpodobnou odpověď, ale snaží se k tomu dát i nějaký kontext a jít víc do hloubky? Do jaké míry už se daří tyhle kauzální modely také zapojovat do toho běžného využití?
Určitě kauzální učení je něco, co hodně odborníků považuje za ten další krok po statistickém učení, které by sledovalo jenom ty korelace. Tak snaha vidět tu kauzalitu, pokud něco tak něco tak, aby člověk mohl uvažovat i o situacích, které ještě nikdo nikdy neviděl. Dneska ty velké jazykové modely jsou schopny docela dobře vyhledávat informace o tom, co už někdo viděl, Večeři už vařil každý, příprava nějakého webového rozhraní, už taky někdo připravoval mnohokrát a vlastně je to dobře zdokumentované, popsané a stačí to odněkud vytáhnout. Zatímco uvažovat o situacích, které ještě nikdo nikdy nezkoušel, tak je dneska složité pro všechny ty systémy. A to proto, že to vyžaduje dívat se dopředu a používat tady ta jenom naučená pravidla, když něco, tak něco pro to uvažování o tom, co by bylo, kdyby se stalo něco nečekaného. A to je určitě dlouhodobý směr, to nebude něco, co bude prominentní jenom v tom nadcházejícím roce, ale třeba v příštím desetiletí.
Zatímco si povídáme, tak diváci mohou sledovat nejrůznější videa vytvořená umělou inteligencí. Dost často se tam objevují nezávadné obrázky zvířátek, nějakých veselých historek nebo krásných záběrů přírody nebo měst. Je ale na místě se obávat toho, co všechno už umělá inteligence dokáže nebo bude moci dokázat v dalších letech?
Já jsem přirozeně technooptimista, ale i z pohledu technooptimisty je určitě potřeba vidět, že právní rámec pro využití umělé inteligence, to, jaká data je možné zpracovávat bezúplatně, jaká data je možnost zpracovávat za jakou úplatu, nakolik je možné ta data reprodukovat blízko toho formátu, v jakém byla načtena a podobně, tak to jsou otázky, které zatím nemají dobrou odpověď. Ne, nejsou na to judikáty. V Evropské unii už máme nějakou regulaci, ale ani pro ni nejsou ta implementační nařízení zatím dostupná. Takže tohle to je něco, co je v procesu vývoje a určitě tady uvidíme hodně pokroku ve smyslu nových judikátů, nových nařízení, která by vyjasňovala, co umělá inteligence může a co už se.