Daugiakalbių ir vienkalbių tekstynų sukūrimas

Picture1.jpg

Projektas finansuojamas Ekonomikos gaivinimo ir atsparumo didinimo plano „Naujos kartos Lietuva“ lėšomis“

Projekto aprašymas 

Valstybės skaitmeninių sprendimų agentūra įgyvendina projektą „Daugiakalbių ir vienakalbių tekstynų sukūrimas“,  projekto kodas Nr. 02-106-P-0001. 

Projekto tikslas  - sukurti 5 kompleksinius lietuvių kalbos išteklius - paralelinius ir vienkalbius tekstynus ukrainiečių, norvegų, švedų, danų, ispanų kalbomis. Kiekvieną kompleksinį kalbos išteklių sudarys du tekstynai (nematerialaus turto vienetai) – vienkalbis ir paralelinis (lygiagretusis) tekstynai.

Projekto metu kuriami skaitmeniniai kalbos ištekliai yra labai svarbūs šių dienų kontekste. Žvelgdami į per pastarąjį dešimtmetį padarytą įspūdingą informacinių technologijų (toliau – IT) pažangą, matome, kad bendrauti išmaniaisiais prietaisais tampa kasdieniniu natūraliu dalyku.  Vis dėlto, kalbų technologijos yra iš esmės grindžiamos kalba ir didžioji dalis iki šiol padarytos pažangos yra susijusi tik su viena kalba – anglų. Išsamūs tyrimai ir Europos Parlamento rezoliucija „Kalbų lygybė skaitmeniniame amžiuje“  nustatė ryškų naudojamų kalbų technologijų disbalansą ir ragina imtis veiksmų susiklosčiusiai situacijai keisti.

Norvegų, švedų ir danų (toliau – Skandinavų) kalbos vis dažniau vadinamos ateities kalbomis. Skandinavų šalys pirmauja visuose ekonominiuose ir socialiniuose tyrimuose. Šios valstybės  priklauso konkurencingiausioms pasaulio šalims. Pasauliniame Šveicarijos tarptautinio valdybos instituto IMD (angl. Index of Multiple Deprivation) konkurencingumo 2024 m. reitinge  šios šalys yra pirmame dešimtuke. Kasmet auga Lietuvos ir Skandinavijos komercinių mainų vertė. Artima geografinė padėtis, nedidelės išlaidos ir kvalifikuoti darbuotojai skatina Skandinavijos įmones plėtoti verslą Lietuvoje. Lietuvos įmonės taip pat vis labiau ieško galimybių įsitvirtinti Skandinavijos rinkoje. Žinoma, vienas iš bendradarbiavimo iššūkių yra kalba. Nors šių šalių kalbos ir lietuvių kalba priklauso tai pačiai indoeuropiečių kalbų grupei, tarp jų panašumų mažai. Jos nėra vienalytės, esama daug tarmių. Šios kalbos dažnai painiojamos, skiriasi tam tikromis detalėmis. Lietuvių kalba taip pat yra sudėtinga su savo gramatikos taisyklėmis, linksnių taikymu, sakinio sandara ir yra didelis iššūkis kurti technologijas, leidžiančias teisingai versti iš mūsų kalbos į Skandinavų kalbas. Tokie IT sprendimai yra brangūs, imlūs laikui ir verslas investuoja tik į siauras tekstynų kūrimo sritis, susijusias su jų komerciniais tikslais. Viešasis sektorius, kurdamas tekstynus Skandinavų kalbomis, sudarys sąlygas kurti mašininio vertimo technologijas, kurių pagalba užsienio piliečiai turės galimybę gauti viešąsias el. paslaugas jiems suprantama kalba. Verslui nereikės investuoti kuriant tekstynus – užteks paimti Projekto metu sukurtus tekstynus ir naudoti juos savo veikloje. Taip pat yra labai svarbu, kad šių tekstynų pagalba sukurtomis mašininio vertimo priemonėmis galės naudotis ir emigrantai, gyvenantys Skandinavijos šalyse ir nemokantys, arba mažai mokantys šias kalbas, dėl to patiriantys socialinę atskirtį, negalintys pasinaudoti viešosiomis paslaugomis ir kt.

Lietuvoje jau nuo 2004-2006 m. Europos Sąjungos (toliau – ES) struktūrinės paramos kuriami didesni ar mažesni tekstynai pagrindinėmis kalbomis – anglų, prancūzų, vokiečių. Tačiau iki šiol nebuvo kurta tekstynų ispanų kalba. Pastaruosius 15 metų galima stebėti, kaip Lietuvoje auga susidomėjimas ispanų kalba ne tik universitetuose ir aukštosiose mokyklose, bet verslo sektoriuje, privačiose iniciatyvose. Ispanų kalba šių laikų pasaulyje užima vis tvirtesnes pozicijas. Pagal kalbančiųjų skaičių, ispanų kalba patenka į  dažniausiai naudojamų kalbų  penketuką  ir siekia apie penkis šimtus milijonų gyventojų. 21 valstybėje ši kalba yra pripažinta valstybine kalba, ja kalbama penkiuose kontinentuose. Ispanų kalba paplitusi ne tik geografinėje, bet ir virtualioje erdvėje. Todėl labai svarbu kurti ir plėtoti technologijas, gebančias susikalbėti šia kalba. 2022 m. vasario 24 d. Rusijai pradėjus karinę agresiją prieš Ukrainą, ES, reaguodama į situaciją, 2022 m. kovo 4 d. aktyvavo laikinosios apsaugos direktyvą, kuria visiems iš Ukrainos bėgantiems žmonėms, nesvarbu, kuriai kategorijai jie priskiriami, suteikiama galimybė patekti į ES teritoriją prieš jiems grįžtant į savo kilmės vietą. Migracijos departamento duomenimis, šiai dienai Lietuvoje yra daugiau kaip 87 tūkst. karo pabėgėlių iš Ukrainos. Viena didžiausių problemų, su kuria susiduria šie žmonės – kalbos barjeras. Projekto metu kuriami ukrainiečių kalbos daugiakalbis ir vienkalbis tekstynai leis kurti mašininio vertimo priemones, skirtas mažinti socialinę atskirtį karo pabėgėliams. Tai leis jiems suprasti viešojo sektoriaus interneto svetainių turinį, pasinaudoti el. paslaugomis, aktyviau integruotis į darbo rinką.  Kurti tekstynus, skirtus mašininio vertimo technologijai, ne tokiomis populiariosiomis (anglų, prancūzų, vokiečių) kalboms, yra kur kas sudėtingiau, nes šios kalbos neturi tiek daug resursų, kurie padėtų tobulinti technologiją. Todėl jaučiama takoskyra tarp kalbų, vertimai atliekami ne taip tiksliai bei kokybiškai. Įvairių kalbų tekstynai yra kuriami ir privataus sektoriaus, ypač didžiųjų IT  įmonių, tačiau labai svarbu, kad tekstynus kurtų viešojo sektoriaus institucijos, universitetai, mūsų šalies specialistai.  Viešasis sektorius turi stiprią darbo etiką, jų kurti tekstynai užtikrina norminės kalbos vartojimą, teisingai sudarytas sakinių formuluotes, kas didina mašininio vertimo tikslumą. Kuriami tekstynai yra pritaikomi prie teikiamų viešųjų paslaugų, yra suprantami piliečiams. Projekto metu bus kuriami tekstynai 5 kalbomis. Lietuviškai kalbančios visuomenės poreikiams versti tekstus, interneto svetaines ir kitą informaciją naudojantis vertėjų žmogiškaisiais resursais yra beveik neįmanoma ir net netikslinga dėl dinamiškai kintančio tinklalapių turinio, milžiniškų apimčių ir daugelio kitų priežasčių (tinklalapių atrankos kriterijų, neekonomiškumo ir t.t.). Todėl menkiau išsilavinusių asmenų, kaimo vietovių gyventojų, vyresniųjų amžiumi ar kitų, tiesiog nemokančių ukrainiečių, ispanų, norvegų, švedų ar danų kalbų, sąsajos su tolesne progresyvia visuomenės plėtra yra suvaržytos, kas lemia didėjančią socialinę atskirtį. Problema, kuri bus išspręsta įgyvendinus projektą – skirtingų kalbų išteklių, reikalingų dirbtinio intelekto sprendimams, nebuvimas. Įgyvendinant projektą, bus  sukurti 5 kompleksiniai lietuvių kalbos ištekliai – lygiagretūs (paraleliniai) daugiakalbiai ir vienkalbiai tekstynai, reikalingi plėtoti dirbtinio intelekto (toliau – DI) technologijas, ispanų, ukrainiečių, norvegų, švedų ir danų kalbomis.

Projekto rezultatai taip pat:

  • sudarys sąlygas kurti naujomis technologijomis pagrįstus sprendimus, juos diegti kuriant pažangias skaitmenines paslaugas ir teikti šias paslaugas visuomenei;
  • prisidės prie lietuvių kalbos išsaugojimą ir gyvybingumą palaikančių skaitmeninių išteklių plėtros.

Taigi, projektu kuriami nauji kalbos ištekliai yra labai svarbūs Lietuvos ekonomikai, gyventojams, mažina socialinę atskirtį ir prisideda prie DI technologijų plėtros. Projektas prisidės prie Nacionalinio pažangos plano 1.7 uždavinio „Skatinti valstybės skaitmeninimą“ įgyvendinimo.

Projektu prisidedama prie 2021–2030 metų Lietuvos Respublikos Ekonomikos ir inovacijų ministerijos valstybės skaitmeninimo plėtros programos pažangos priemonės Nr. 05-002-01-07-08 „Kurti technologinius sprendimus ir įrankius, leidžiančius saugiai ir patogiai naudotis paslaugomis“ veiklos „Kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra“ įgyvendinimo.

Bendra projekto vertė1 343 098,04 Eur
Projekto veiklų įgyvendinimo pradžia

2024 m. rugsėjo 26 d.

Projekto veiklų įgyvendinimo pabaiga          2026 m. balandžio 30 d.
Kontaktinis asmuoRenata Marmienė

 

Atnaujinimo data: 2024-09-30