Generatyvaus AI vaizdo ir balso klastotės realiu laiku

Per kelerius metus generatyvus dirbtinis intelektas iš kūrybinio žaislo tapo rimtu saugumo iššūkiu. 2024 m. jau nebereikia Holivudo studijos, kad realiu laiku perimtum kito žmogaus veidą ar balsą – tam pakanka galingesnio nešiojamo kompiuterio ir kelių viešai prieinamų įrankių.

Šiame straipsnyje aiškiai ir be panikos pažiūrėsime, kaip veikia realaus laiko vaizdo ir balso klastotės, kuo jos pavojingos politikai, verslui ir paprastiems žmonėms, ir kokios apsaugos priemonės jau atsiranda.

Kas yra generatyvaus AI klastotės realiu laiku?

Generatyvaus AI klastotės (angl. deepfakes) – tai sintetiniai vaizdai, vaizdo įrašai ar garsas, sukurti neuroniniais tinklais taip, kad atrodytų ir skambėtų kaip tikri. Realaus laiko režimu tokia sistema keičia vaizdą ar balsą tiesioginės transliacijos metu, be pastebimo vėlavimo.

Paprastai skiriami trys lygiai:

Offline klastotės – iš anksto sugeneruoti vaizdo įrašai ar garso failai.
Pusiau realaus laiko – kelių sekundžių vėlavimas, dažnai naudojamas „live“ transliacijoms su filtrais.
Realaus laiko klastotės – vėlavimas 100–300 ms, praktiškai nepastebimas vaizdo skambučiams ar pokalbiams.

Kaip veikia vaizdo klastotės realiu laiku?

Šiuolaikinės vaizdo klastotės remiasi kelių tipų neuroniniais tinklais – dažniausiai generatyviniais priešiniais tinklais (GAN) ir autoenkoderiais. 2024 m. atsiranda ir difuziniai modeliai, tačiau jie labiau naudojami offline generavimui, nes vis dar reikalauja daugiau resursų.

Pagrindiniai etapai

Duomenų surinkimas

Surenkama kuo daugiau tikro žmogaus nuotraukų ir vaizdo medžiagos: socialiniai tinklai, interviu, konferencijos, netgi „Stories“. Kuo daugiau kampų ir apšvietimo variantų – tuo geresnis modelis.
Modelio apmokymas
AI mokosi atkurti žmogaus veidą skirtingose pozicijose ir emocijose. Autoenkoderis išmoksta „suspausti“ veido informaciją į latentines savybes ir vėl ją atkurti.
Veido sekimas realiu laiku
Vykstant vaizdo skambučiui, sistema seka naudotojo veido taškus (akis, lūpas, antakius, žandikaulį) ir mimiką.
Veido uždėjimas
Modelis transformuoja naudotojo mimiką į kito žmogaus veidą ir uždeda jį ant vaizdo srauto. Pažangūs įrankiai koreguoja apšvietimą, odos toną ir foną.
Transliacija
Sugeneruotas vaizdas siunčiamas į „Zoom“, „Teams“, „Meet“ ar kitą platformą kaip virtuali kamera.

Kokios techninės ribos 2024 m.?

Jei 2020 m. realaus laiko deepfake reikalavo galingos vaizdo plokštės, šiandien egzistuoja:

optimizuoti modeliai, veikiantys vidutinio lygio GPU arba net naujesniuose integruotuose grafikos lustuose;
debesų paslaugos, kurios skaičiavimus atlieka nuotoliniuose serveriuose, o vartotojui siunčia jau apdorotą srautą;
atvirojo kodo projektai, leidžiantys entuziastams pasiekti stulbinančią kokybę be didelių investicijų.

Kaip veikia balso klastotės realiu laiku?

Balso klastotės šiandien dažnai yra dar pavojingesnės nei vaizdo, nes telefonu ar garso pokalbiuose turime mažiau vizualių užuominų.

Balso imitavimo grandinė

Balso pavyzdžių surinkimas
Pakanka kelių minučių aukštos kokybės įrašo: interviu, „YouTube“ video, podcasto ar net „Teams“ susitikimo įrašo.
Balso modelio kūrimas
Naudojami neuroniniai vokoderiai ir teksto į kalbą (TTS) modeliai, kurie išmoksta balso tembrą, intonaciją, kalbėjimo ritmą.
Realaus laiko keitiklis
Įrankis klausosi jūsų mikrofono ir transformuoja jūsų kalbą į kito žmogaus balsą, išlaikydamas turinį, bet pakeisdamas tembrą ir emociją.
Integracija į skambučių programas
Kaip ir su vaizdu, balso keitiklis prisijungia kaip virtualus mikrofonas ir veikia bet kurioje pokalbių ar konferencijų programoje.

Kas pasikeitė 2024 m.?

Mažiau duomenų – kai kurie modeliai sugeba sukurti įtikinamą balso klastotę iš 30–60 sekundžių įrašo.
Greitis – vėlavimas sumažėjo iki dešimčių milisekundžių, todėl balsas atrodo visiškai natūralus.
Emocijos – naujos sistemos geriau atkartoja juoką, pyktį, nuovargį, todėl pokalbiai tampa dar įtikinamesni.

Kokios rizikos kyla dėl realaus laiko klastočių?

Realaus laiko vaizdo ir balso klastotės kelia rizikų keliais lygmenimis – nuo asmeninio saugumo iki geopolitinės stabilumo.

1. Finansiniai sukčiavimai ir verslo apgavystės

Vienas pavojingiausių scenarijų – vadovo imitavimas. Sukčiai gali:

prisijungti prie vaizdo skambučio su „vadovo“ veidu ir balsu;
paprašyti skubaus pavedimo „strateginiam sandoriui“ ar „konfidencialiam projektui“;
pateikti „naują“ banko sąskaitą ar tiekėjo duomenis.

2023–2024 m. viešai skelbta kelių atvejų, kai įmonės prarado šimtus tūkstančių ar net milijonus eurų, patikėjusios deepfake vadovais ar partneriais.

2. Politinė dezinformacija ir rinkimų manipuliacijos

Rinkimų metais generatyvus AI tampa galingu propagandos įrankiu. Galimi scenarijai:

kandidato „tiesioginis“ pasisakymas, kuriame jis tariamai pripažįsta skandalą ar skleidžia radikalius pasisakymus;
netikros „nuotolinės konferencijos“ su žurnalistais, kuriose platinama melaginga informacija;
socialinių tinklų live transliacijos su suklastotu vaizdu ir balsu.

Net jei vėliau klastotė paneigiama, žala reputacijai ir visuomenės pasitikėjimui dažnai jau padaryta.

3. Asmens tapatybės vagystė ir reputacijos atakos

Paprastiems žmonėms pavojai taip pat realūs:

skambučiai artimiesiems su jūsų ar jūsų vaiko „balsu“, prašant skubios finansinės pagalbos;
šantažas, paremtas suklastintais vaizdo įrašais ar pokalbiais;
socialinių tinklų paskyrų perėmimas, patvirtinant tapatybę per vaizdo skambutį.

Realaus laiko klastotės pavojingos tuo, kad jos pasirodo čia ir dabar – nėra laiko ramiai patikrinti šaltinius.

4. Pasitikėjimo skaitmenine erdve griūtis

Kai tampa nebeaišku, ar žmogus ekrane yra tikras, kyla platesnė problema – pasitikėjimo krizė. Jei bet koks video ar įrašas gali būti klastotė, visuomenė gali:

nebetikėti realiais įrodymais, kai jie tikrai reikalingi (pvz., karo nusikaltimų dokumentavimas);
lengviau priimti sąmokslo teorijas („viskas – deepfake“);
atsiriboti nuo politinių procesų, nes „vis tiek visi meluoja“.

Teisinis ir reguliacinis kontekstas

Europos Sąjunga 2024 m. juda AI reguliavimo link, o ES AI aktas numato specialius reikalavimus aukštos rizikos sistemoms ir skaidrumo pareigą generatyviam turiniui. Nors detalės dar tobulinamos, kryptis aiški:

Privalomas žymėjimas – generatyvus turinys turės būti aiškiai pažymėtas kaip sintetinė medžiaga.
Didelių platformų atsakomybė – socialiniai tinklai ir vaizdo platformos privalės diegti aptikimo ir žymėjimo mechanizmus.
Asmens teisių apsauga – stiprinamos teisės į atvaizdą ir balsą, įskaitant teisę reikalauti pašalinti klastotes.

Lietuvoje asmens duomenų, atvaizdo ir garso apsaugą reglamentuoja BDAR (GDPR), Baudžiamasis ir Civilinis kodeksai. Net ir be specialaus „deepfake“ įstatymo, daugelis klastojimo ir šantažo atvejų jau dabar gali būti baudžiami.

Kaip atpažinti vaizdo klastotes realiu laiku?

100 % patikimo būdo paprastam vartotojui kol kas nėra, tačiau įtarimą gali sukelti keli požymiai.

Vizualūs signalai

Keistas mirksėjimo ritmas – per retas ar nenatūralus mirksėjimas.
Nesutapęs apšvietimas – veidas apšviestas kitaip nei kaklas ar fonas.
Artefaktai aplink plaukus – ypač sudėtinga tiksliai atkurti smulkius plaukų kontūrus.
Neatitinkantis fonas – neryškus, pernelyg „sterilus“ arba keistai „atskirtas“ nuo žmogaus.
Lūpų sinchronizacija – žodžiai nesutampa su lūpų judesiais, ypač sudėtinguose žodžiuose.

Elgesio ir konteksto signalai

Neįprasti prašymai – skubūs pavedimai, slapta informacija, apeinant įprastas procedūras.
Vengimas paprastų testų – nenoras atlikti spontaniškų veiksmų (pvz., parodyti kambarį, pakelti ranką, pasukti galvą).
Keistas kalbėjimo stilius – žmogus tariamai tas pats, bet žodynas ar humoro jausmas – visiškai kitas.

Kaip atpažinti balso klastotes?

Balso deepfake dažnai sunkiau pastebimas, bet yra keli rodikliai.

Neįprasta garso kokybė – balsas „per švarus“ arba atvirkščiai – keistai metalinis.
Blogas triukšmo atitikimas – foninis triukšmas nesiderina su balsu (pvz., balsas arti, o triukšmas – kaip iš kitos erdvės).
Emocijų neatitikimas – žodžiai skamba dramatiškai, bet balse trūksta natūralių emocinių niuansų.
Keisti pauzės ir kirčiai – net gimtąja kalba balsas gali skambėti lyg „vertėjas“.

Gynybos priemonės: ką daryti verslui?

Organizacijoms vien tik techninių sprendimų nepakaks – reikia procesų ir kultūros pokyčių.

1. „Niekada tik per vieną kanalą“ taisyklė

Bet kokie finansiniai ar strateginiai sprendimai, gauti per vaizdo ar balso skambutį, turėtų būti:

patvirtinti antru kanalu (SMS, el. paštu, vidine sistema);
atlikti tik po rašytinio patvirtinimo pagal nustatytą procedūrą;
ribojami sumų ir teisių limitais vienam darbuotojui.

2. Darbuotojų mokymai

2024 m. kibernetinio saugumo mokymuose turi atsirasti atskiras modulis apie generatyvų AI:

realių deepfake pavyzdžių peržiūra;
praktiniai scenarijai (suklastotas vadovo skambutis, partnerio video);
aiškios instrukcijos, kaip elgtis įtarus klastotę.

3. Techninės priemonės

Daugiapakopė autentifikacija – nepasitikėti vien tik vaizdo ar balso patvirtinimu.
Skaitmeniniai parašai – svarbiems dokumentams ir sandoriams.
AI klastočių aptikimo įrankiai – integruoti į vidines sistemas ir el. pašto šliuzus, kur tai įmanoma.

Kaip apsisaugoti paprastam vartotojui?

Nors technologija sudėtinga, bazinės gynybos taisyklės paprastos.

1. Dvigubas patikrinimas, kai kalba eina apie pinigus

Jei gaunate skambutį iš „artimojo“, prašančio pinigų – padėkite ragelį ir perskambinkite į žinomą numerį.
Nepriimkite finansinių sprendimų vien tik remdamiesi emociniu spaudimu ir skuba.

2. Asmeninių balso ir vaizdo duomenų higiena

Ribokite labai aiškių, ilgesnių balso įrašų viešą dalijimąsi.
Tvarkykite privatumo nustatymus socialiniuose tinkluose.
Su vaikais aptarkite, kodėl nereikėtų viešai dalintis visais asmeniniais duomenimis ir ilgais video.

3. Sveikas skepticizmas

Jei video ar įrašas atrodo „per geras, kad būtų tiesa“ – galbūt taip ir yra.
Ieškokite kitų šaltinių, nepriklausomų patvirtinimų.
Neskubėkite dalintis šokiruojančiu turiniu – pirmiausia patikrinkite.

Technologijos prieš technologijas: kaip AI padeda gintis?

Įdomu tai, kad nuo generatyvaus AI klastočių vis dažniau gina tas pats AI.

AI aptikimo sistemos

Vaizdo analizė – modeliai ieško mikroskopinių artefaktų, kurių žmogaus akis nepastebi (pikselių pasiskirstymas, kompresijos pėdsakai).
Garso analizė – tiriamos dažnių spektro anomalijos, kvėpavimo pauzės, mikrointonavimas.
Elgesio analizė – vertinamas kalbos stilius, žodynas, reakcijų greitis, lyginant su žinomais asmens duomenimis.

Skaitmeniniai vandens ženklai ir kilmės žymėjimas

Didžiosios technologijų kompanijos kuria standartus, kurie leis:

įterpti nematomus vandens ženklus į generatyvų turinį;
naudoti kilmės metaduomenis (angl. content provenance), rodančius, kur ir kada įrašas sukurtas;
naršyklėms ir platformoms automatiškai rodyti, ar turinys yra sintetinės kilmės.

Kol šios sistemos taps plačiai paplitusios, praeis keleri metai, tačiau kryptis jau aiški.

Kas laukia toliau?

Per artimiausius 2–3 metus galime tikėtis:

dar realesnių realaus laiko klastočių, kurias plika akimi atskirti bus beveik neįmanoma;
AI asistentų, kurie realiu laiku analizuos mūsų skambučius ir įspės apie galimas klastotes;
griežtesnio reguliavimo, ypač finansų ir politikos srityse;
platesnio visuomenės supratimo – deepfake sąvoka jau dabar pereina į kasdienę kalbą.

Generatyvus AI nėra vien tik grėsmė – jis atveria ir daug kūrybinių, edukacinių, pramoginių galimybių. Tačiau tam, kad galėtume jomis saugiai naudotis, turime išmokti atpažinti ir valdyti rizikas.

Išvados

Realaus laiko vaizdo ir balso klastotės jau yra prieinamos ne tik profesionalams, bet ir pažengusiems mėgėjams.
Didžiausios rizikos – finansiniai sukčiavimai, politinė dezinformacija ir asmens tapatybės vagystės.
Apsauga reikalauja derinti technologijas, procesus ir kritinį mąstymą.
AI padeda ne tik kurti klastotes, bet ir jas aptikti – ši „gynybos lenktynė“ tik įsibėgėja.

DUK: dažniausiai užduodami klausimai

Ar paprastas žmogus gali sukurti realaus laiko deepfake?

Taip, egzistuoja atvirojo kodo įrankiai ir komercinės programos, leidžiančios sukurti gana įtikinamą realaus laiko deepfake turint vidutinio galingumo kompiuterį. Tačiau aukštos kokybės, stabilus rezultatas vis dar reikalauja techninių žinių ir laiko modelio apmokymui.

Ar yra 100 % patikimas būdas atpažinti klastotę?

Ne. Net pažangiausios aptikimo sistemos dirba tik su tikimybiniais modeliais ir gali suklysti. Todėl svarbu derinti technologinius įrankius su sveiku skepticizmu, papildomais patikrinimo kanalais ir aiškiomis organizacinėmis taisyklėmis.

Kaip greitai keisis situacija per artimiausius metus?

Tikėtina, kad per 1–2 metus realaus laiko klastočių kokybė dar labiau priartės prie realybės, o jų kūrimas taps paprastesnis. Tuo pačiu atsiras daugiau automatizuotų aptikimo ir turinio žymėjimo priemonių, o reguliavimas – griežtesnis, ypač finansų ir politinės reklamos srityse.