Bendrojo lietuvių kalbos tekstyno ir vektorizuotų modelių sukūrimas

Projektas finansuojamas Ekonomikos gaivinimo ir atsparumo didinimo plano „Naujos kartos Lietuva“ lėšomis“

Projekto aprašymas
Valstybės skaitmeninių sprendimų agentūra įgyvendina projektą „Bendrojo lietuvių kalbos tekstyno ir vektorizuotų modelių sukūrimas“, projekto kodas Nr. 02-103-P-0001. Projekto tikslas - surinkti reikiamus lingvistinius resursus, juos tinkamai sutvarkyti ir parengti išsamų Bendrąjį lietuvių kalbos tekstyną, tenkinantį dirbtinio intelekto technologijų vystymo ir skaitmeninių bei statistinių kalbos tyrimų poreikius, ir jų pagrindu sukurti iš anksto apmokytus (angl. pre-trained) neuroninius lietuvių kalbos modelius, turinčius išsamias faktines žinias apie lietuvių kalbą bei tenkinančius dirbtinio intelekto technologijų vystymo ir skaitmeninių bei statistinių kalbos tyrimų poreikius. Visuomenei prieinami sukurti dirbtinio intelekto sprendimai lietuvių kalba paspartins skaitmeninę visos visuomenės transformaciją: naudojimasis šiomis paslaugomis taps patrauklesnis, jo neribos užsienio kalbų nemokėjimas, o dažnesnis naudojimasis padės visuomenei tobulinti skaitmeninius įgūdžius kasdienybėje. Projekto metu kuriamas Bendrasis lietuvių kalbos tekstynas, kuris yra vienas pamatinių kalbos technologijų išteklių, reikalingas tenkinti dirbtinio intelekto technologijų poreikius, kuriant lietuvių kalbos įterptinių žodžių (angl. word embedding) modelius, neuroninius kalbos modelius, didžiuosius kalbos modelius, kitų sprendimų poreikius tenkinančius modelius. Nuo tekstyno išsamumo, kokybės, leksinės įvairovės, priklauso kuriamų intelektualių technologijų sprendimų kokybė ir panaudojimo imtis. Tik išsamus ir didelės apimties tekstynas mašininio mokymo modeliams suteikia pakankamas žinias apie kalbą ir žodyną. Šiuo metu atviroje prieigoje egzistuojantys lietuvių kalbos tekstynai yra arba nepakankamos apimties, todėl netinkami kokybiškų neuroninių kalbos modelių rengimui, arba suformuoti tik žiniasklaidos tekstų pagrindu, arba senesnio laikotarpio, todėl jų pilnavertiškai neįmanoma taikyti specializuotose srityse (tokiose kaip medicina, teisė ir t.t.). Vektorizuotas (neuroninis) kalbos modelis yra vienas pagrindinių neuroninių kalbos technologijų išteklių, reikalingas dirbtinio intelekto technologijoms kurti. Iš anksto apmokyti modeliai kalbą užkoduoja skaitmeninei mašinai suprantamu būdu. Du skirtingos apimties vektorizuoti modeliai leis apdoroti sudėtingos struktūros duomenis, analizuoti natūralios kalbos tekstus, esančius skaitmeniniu formatu. Sukurti vektorizuoti modeliai leis kurti išmanius, duomenų analize grįstus algoritmus ir plėtoti dirbtinio intelekto sprendimus lietuvių kalba. Projekto rezultatai taip pat prisidės prie kitų problemų sprendimo, tokių kaip lietuvių kalbos išsaugojimą ir gyvybingumą palaikančių skaitmeninių išteklių plėtra, leis kurti naujomis technologijomis pagrįstus sprendimus, juos diegti kuriant pažangias skaitmenines paslaugas ir teikti šias paslaugas visuomenei. Projektu prisidedama prie 2021–2030 metų Lietuvos Respublikos Ekonomikos ir inovacijų ministerijos valstybės skaitmeninimo plėtros programos pažangos priemonės Nr. 05-002-01-07-08 „Kurti technologinius sprendimus ir įrankius, leidžiančius saugiai ir patogiai naudotis paslaugomis“ veiklos „Kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra“ įgyvendinimo.
Bendra projekto vertė	5 859 998,63 Eur
Projekto veiklų įgyvendinimo pradžia	2024 m. rugsėjo 19 d.
Projekto veiklų įgyvendinimo pabaiga	2026 m. balandžio 30 d.
Kontaktinis asmuo	Arminas Rakauskas

Atnaujinimo data: 2024-10-01