Mažų kalbų dirbtinis intelektas: lenktynės dėl kalbinio suvereniteto

Dirbtinis intelektas (DI) jau seniai nebėra tik technologų žaislas – tai infrastruktūra, tokia pat svarbi kaip elektra ar internetas. 2024–2025 m. pasaulis įžengė į naują etapą: prasidėjo lenktynės dėl kalbinio suvereniteto, o mažos kalbos atsidūrė kryžkelėje. Ar jos taps pilnateisėmis DI ekosistemos dalyvėmis, ar bus nustumtos į skaitmeninį paraštę?

Kodėl mažoms kalboms DI tapo egzistenciniu klausimu

Didieji generatyvaus DI modeliai – „OpenAI“, „Google“, „Meta“, „Anthropic“ ir kitų – pirmiausia treniruojami anglų kalba ir keliomis didžiosiomis pasaulio kalbomis. Mažoms kalboms, tokioms kaip lietuvių, latvių, estų ar islandų, tai kelia tris grėsmes:

Skaitmeninė nelygybė – paslaugos mažomis kalbomis tampa lėtesnės, brangesnės, prastesnės kokybės.
Kalbos nykimas internete – jei kokybiškiausi įrankiai veikia tik anglų kalba, vartotojai natūraliai pereina prie jos.
Priklausomybė nuo užsienio platformų – be savų modelių valstybė lieka priklausoma nuo kitų šalių įmonių politikos ir kainodaros.

Būtent todėl vis dažniau kalbama ne tik apie skaitmeninę, bet ir apie kalbinę nepriklausomybę. DI tampa naujuoju kalbos politikos frontu.

Kas yra kalbinis suverenitetas DI eroje?

Kalbinis suverenitetas – tai valstybės ir bendruomenės gebėjimas savarankiškai kurti, valdyti ir naudoti technologijas savo kalba, nepriklausant nuo vieno ar kelių užsienio tiekėjų. DI kontekste tai reiškia:

turėti savo kalbos modelius (ar bent jų atviras versijas),
užtikrinti, kad viešosios paslaugos (švietimas, sveikata, teismai) galėtų naudoti DI gimtąja kalba,
išlaikyti duomenų kontrolę – ypač jautrių tekstų ir garso įrašų,
garantuoti, kad kalba nebus filtruojama ar iškraipoma dėl svetimų politinių ar komercinių interesų.

Praktiškai tai reiškia: jei rytoj prarastume prieigą prie didžiųjų užsienio DI platformų, ar Lietuva vis dar galėtų teikti išmanias paslaugas lietuvių kalba? Jei atsakymas – „ne“, kalbinio suvereniteto neturime.

2024–2025 m. situacija: kur esame šiandien?

Per pastaruosius dvejus metus mažų kalbų DI srityje įvyko reikšmingų pokyčių. Europos Komisija, nacionalinės vyriausybės ir mokslininkai pagaliau suvokė, kad be tikslingų investicijų mažos kalbos DI lenktynėse pralaimės.

Lietuvoje ir regione matome kelias aiškias tendencijas:

Augančios viešosios investicijos į kalbų technologijas (projektai, skirti kalbos ištekliams, anotavimui, kalbos modeliams).
Atvirosios iniciatyvos – bendri Baltijos ir Šiaurės šalių projektai, kuriant atvirus korpusus ir modelius.
Privataus sektoriaus suaktyvėjimas – startuoliai ir įmonės kuria nišinius DI produktus lietuvių kalbai.

Vis dėlto didžiųjų žaidėjų pasaulyje tempas dar didesnis. Jei mažos valstybės dels, atotrūkis tik augs.

Duomenys – naujas nafta, bet mažoms kalboms jos trūksta

Generatyvaus DI kokybė tiesiogiai priklauso nuo duomenų kiekio ir įvairovės. Čia mažos kalbos turi natūralų trūkumą – tekstų, garso ir vaizdo duomenų kiekis yra ribotas.

Pagrindiniai iššūkiai mažoms kalboms

Maži interneto korpusai – palyginti su anglų kalba, lietuviškų viešų tekstų yra kelis šimtus kartų mažiau.
Teisiniai apribojimai – autorių teisės trukdo paprastai naudoti spaudos, knygų, mokymo medžiagą.
Dialektai ir tarmės – mažos kalbos dažnai turi didelę vidinę įvairovę, kurią sunku padengti.
Trūksta anotavimo – net ir turimi duomenys dažnai nėra struktūruoti ir paženklinti.

Dėl to mažoms kalboms ypač svarbios valstybinės ir akademinės iniciatyvos, kurios:

kuria ir atnaujina nacionalinius kalbos korpusus,
skatina atvirų duomenų kultūrą (ypač viešajame sektoriuje),
finansuoja anotavimo ir kokybės užtikrinimo projektus.

Atviri modeliai prieš uždaras platformas

DI ekosistema šiandien dalijasi į du polius: uždarus komercinius modelius ir atviruosius (open-source) modelius. Mažoms kalboms tai ne tik techninis, bet ir politinis pasirinkimas.

Uždari modeliai: greitas kelias, bet su priklausomybės rizika

Naudojant didžiųjų technologijų kompanijų modelius, galima greitai gauti aukštos kokybės paslaugas, tačiau:

kalbos palaikymas priklauso nuo tiekėjo prioritetų,
kainodara ir naudojimo sąlygos gali keistis vienašališkai,
dažnai nėra aišku, kaip modelis elgiasi kalbos, istorijos ar politikos klausimais.

Valstybėms tai reiškia strateginę priklausomybę.

Atviri modeliai: daugiau darbo, bet ir daugiau kontrolės

Atvirieji modeliai (pvz., „LLaMA“ šeima, įvairūs Europos projektai) suteikia galimybę:

juos priderinti prie konkrečios kalbos ir srities,
diegtis nuosavuose serveriuose ar valstybiniuose debesyse,
užtikrinti duomenų lokalumą ir atitiktį reglamentams (pvz., GDPR, AI Act),
kurti bendruomenės ekosistemą aplink kalbą – nuo tyrėjų iki verslo.

Trūkumas – reikia daugiau vietos kompetencijoms ir infrastruktūrai, bet ilgalaikėje perspektyvoje tai stiprina kalbinį suverenitetą.

Europos Sąjungos vaidmuo: nuo AI Act iki bendrų modelių

Europos Sąjunga pastaraisiais metais aiškiai deklaruoja, kad nori technologinės ir kalbinės nepriklausomybės. Tai atsispindi keliuose lygmenyse:

AI Act – pirmasis pasaulyje išsamus dirbtinio intelekto reglamentas, keliantis reikalavimus skaidrumui, saugumui ir duomenų valdymui.
Investicijos į bendrus modelius – remiami Europos kalboms pritaikyti atviri modeliai, kuriuos gali naudoti valstybės, verslas ir akademija.
Daugiakalbystės politika – ES institucijos turi teikti paslaugas visomis oficialiomis kalbomis, o tai skatina kurti kokybiškus vertimo ir kalbos atpažinimo įrankius.

Lietuvai tai atveria galimybę naudotis bendra Europos DI infrastruktūra, tačiau tik tuo atveju, jei aktyviai dalyvaujame projektuose ir patys prisidedame duomenimis bei kompetencijomis.

Lietuva: tarp ambicijų ir realybės

Lietuva jau ne vienerius metus investuoja į kalbos technologijas: kuriami korpusai, žodynai, kalbos atpažinimo ir sintezės sistemos, gramatikos tikrintuvai. Tačiau generatyvaus DI era pakėlė kartelę.

Ką Lietuva daro teisingai?

Akademiniai centrai – universitetuose ir mokslo institutuose formuojasi stiprios komandos, dirbančios su lietuvių kalbos DI.
Valstybiniai projektai – finansuojami kalbos ištekliai, skatinamos atviros licencijos, kuriami nacionaliniai korpusai.
Startuolių ekosistema – atsiranda įmonių, siūlančių balso atpažinimą, automatinius vertimus, teksto analizę lietuvių kalba.

Kur vis dar atsiliekame?

Trūksta aiškios nacionalinės DI strategijos kalbai – kalbos klausimai dažnai paskęsta bendrame skaitmenizacijos diskurse.
Nepakankamas finansavimas dideliems modeliams – treniruoti konkurencingą LLM net ir vienai kalbai yra brangu.
Fragmentuotas darbas – iniciatyvos akademijoje, viešajame sektoriuje ir versle ne visada derinamos tarpusavyje.

Jei norime realiai dalyvauti lenktynėse dėl kalbinio suvereniteto, reikalingas konkretus politinis sprendimas: kalbos DI laikyti strategine infrastruktūra, o ne tik moksliniu eksperimentu.

Praktinės sritys, kur mažų kalbų DI keičia žaidimo taisykles

Viešosios paslaugos ir e. valdžia

DI gali paversti valstybines paslaugas daug patogesnėmis, jei jos veikia gimtąja kalba:

Virtualūs asistentai – atsakinėja į gyventojų klausimus lietuvių kalba 24/7.
Automatinis dokumentų supratimas – DI analizuoja prašymus, sutartis, teisinius tekstus.
Prieinamumas – kalbos sintezė ir atpažinimas padeda žmonėms su negalia naudotis paslaugomis.

Be savų modelių rizikuojame, kad kritinė valstybės infrastruktūra bus paremta užsienio debesų ir platformų sprendimais.

Švietimas ir kultūra

Mažų kalbų DI atveria naujas galimybes švietimui ir kultūrai:

individualizuotos mokymosi platformos lietuvių kalba,
automatizuotas mokymo medžiagos kūrimas ir adaptavimas,
skaitmeninių archyvų indeksavimas ir paieška gimtąja kalba.

Jei mokyklos ir universitetai naudosis tik anglų kalbos DI įrankiais, ilgainiui silpnės akademinės lietuvių kalbos statusas.

Verslas ir konkurencingumas

Smulkus ir vidutinis verslas, ypač veikiantis vietos rinkoje, DI naudoja klientų aptarnavimui, rinkodarai, procesų optimizavimui. Kokybiški lietuvių kalbos modeliai leidžia:

automatizuoti klientų aptarnavimą be kalbos barjero,
analizuoti vietos rinkos duomenis – atsiliepimus, socialinius tinklus, apklausas,
kurti turinį lietuvių kalba neprarandant stiliaus ir kultūrinių niuansų.

Be to, eksportuojami produktai gali pasiūlyti vietos kalbų palaikymą Baltijos ir Šiaurės šalių rinkose, jei turime stiprią kalbos DI bazę.

Kaip praktiškai atrodo mažos kalbos DI kūrimas?

Nuo idėjos iki veiksnaus modelio kelias susideda iš kelių etapų.

1. Duomenų rinkimas ir valymas

interneto svetainių nuskaitymas (web scraping),
viešųjų institucijų dokumentų, įstatymų, teismų praktikos surinkimas,
žiniasklaidos, knygų, mokslinių tekstų licencijavimas,
kalbos garso įrašų rinkimas ir transkribavimas.

Čia itin svarbu kokybė ir įvairovė: nuo kasdienės kalbos iki specializuotų sričių terminijos.

2. Anotavimas ir žymėjimas

Norint, kad modelis suprastų kalbos struktūrą, duomenys žymimi:

kalbos dalys (daiktavardis, veiksmažodis ir t. t.),
vardų, vietovių, institucijų atpažinimas,
sakinių ribos, klaidos, dialektai.

Šis etapas dažnai yra brangiausias ir lėčiausias, bet be jo modelis tampa „aklas“ kalbos subtilybėms.

3. Modelio mokymas ir derinimas

Naudojami jau egzistuojantys daugiafunkciai modeliai (multilingual ar baziniai LLM), kurie:

priderinami (fine-tuning) lietuvių kalbos duomenimis,
testuojami konkrečiose užduotyse – vertimas, santraukos, dialogai,
optimizuojami veikti lokaliai arba debesijoje su realiais kaštais.

Rezultatas – modeliai, kurie jaučia lietuvišką sintaksę, semantiką ir kultūrą.

Etika ir rizikos: ar DI gali pakenkti mažoms kalboms?

DI gali ne tik padėti, bet ir pakenkti, jei naudojamas neatsakingai.

Kalbos supaprastinimas – jei modeliai mokomi tik iš socialinių tinklų, jie skatina skurdų žodyną ir gramatiką.
Stereotipų stiprinimas – šališki duomenys veda prie šališkų atsakymų apie tautines, religines ar socialines grupes.
Dezinformacija – generatyvūs modeliai gali masiškai kurti klaidinančius tekstus vietos kalba.

Todėl mažoms kalboms ypač svarbu:

turėti skaidrius vertinimo kriterijus (benchmarks) savo kalbai,
įtraukti kalbininkus, sociologus, etikos ekspertus į modelių kūrimą,
edukuoti visuomenę apie DI ribas ir rizikas.

Ką gali padaryti Lietuva artimiausiais metais?

Norint neatsilikti DI lenktynėse dėl kalbinio suvereniteto, Lietuvai verta sutelkti jėgas į kelis prioritetus.

1. Nacionalinė mažų kalbų DI strategija

aiškiai įvardyti lietuvių kalbos DI kaip strateginę infrastruktūrą,
nustatyti tikslus iki 2030 m. – nuo duomenų iki veikiančių modelių viešajame sektoriuje,
suderinti ministerijų, akademijos ir verslo veiksmus.

2. Bendra Baltijos ir Šiaurės šalių DI erdvė

kurti bendrus atvirus modelius mažoms ir vidutinėms kalboms,
dalintis infrastruktūra ir kompetencijomis,
stiprinti regiono, kaip daugiakalbio DI centro, reputaciją.

3. Viešojo sektoriaus duomenų atvėrimas

standartiškai atverti teisės aktus, teismų nutartis, viešąsias ataskaitas,
kurti vieningas duomenų saugyklas mokymui ir tyrimams,
užtikrinti, kad atviri duomenys būtų teisiškai aiškūs ir techniškai patogūs naudoti.

Išvados: kalbų ateitis sprendžiama dabar

Mažų kalbų dirbtinis intelektas – ne nišinis akademinis projektas, o valstybinio saugumo ir kultūrinės tapatybės klausimas. Nuo to, ar šiandien investuosime į lietuvių kalbos DI, priklausys, ar po dešimtmečio:

valstybės paslaugos veiks natūralia lietuvių kalba,
vaikai mokysis ir kurs turinį gimtąja kalba,
verslas konkuruos naudodamas pažangias technologijas be kalbos barjero.

Lenktynės dėl kalbinio suvereniteto jau vyksta. Klausimas tik vienas: ar būsime jų dalyviai, ar stebėtojai.

DUK: dažniausiai užduodami klausimai

Ar mažoms kalboms apskritai įmanoma sukurti kokybiškus DI modelius?

Taip. Nors duomenų mažiau, tai kompensuojama tiksliniu rinkimu, anotavimu ir derinimu prie konkrečių užduočių. Be to, galima remtis daugiakalbiais baziniais modeliais ir juos papildomai treniruoti lietuvių kalba. Kokybiški nišiniai modeliai vienai kalbai dažnai lenkia universalius „visoms kalboms“.

Kodėl neužtenka naudoti vien tik didžiųjų užsienio DI platformų?

Todėl, kad tai kuria strateginę priklausomybę: kalbos palaikymas, kainos ir naudojimo taisyklės priklauso nuo kitų šalių įmonių sprendimų. Be to, ne visada įmanoma užtikrinti duomenų lokalumą ir konfidencialumą. Savos DI ekosistemos kūrimas suteikia daugiau kontrolės ir saugumo.

Kaip prie lietuvių kalbos DI gali prisidėti paprasti vartotojai?

Yra keli būdai: naudoti ir testuoti lietuviškus DI įrankius, teikti grįžtamąjį ryšį kūrėjams, dalyvauti pilietiniuose anotavimo projektuose, palaikyti atvirų duomenų iniciatyvas. Kuo daugiau kokybiško lietuviško turinio ir grįžtamojo ryšio, tuo greičiau gerėja modeliai.

Mažų kalbų dirbtinis intelektas: kova dėl kalbinio suvereniteto