Sintetinių lygiagrečių tekstynų sukūrimas

Picture1.jpg

Projektas finansuojamas Ekonomikos gaivinimo ir atsparumo didinimo plano „Naujos kartos Lietuva“ lėšomis“

Projekto aprašymas 

Valstybės skaitmeninių sprendimų agentūra įgyvendina projektą „Sintetinių lygiagrečių tekstynų sukūrimas“, projekto kodas Nr. 02-107-P-0001.  

Projekto tikslas  - sukurti sintetinius lygiagrečius tekstynus, reikalingus dirbtinio intelekto sistemų vystymui ir automatinio mašininio vertimo priemonių tobulinimui/kūrimui.

Šiuo metu vyksta sparti informacinių technologijų plėtra įvairiose srityse, apimančiose naujas technologijas, dirbtinį intelektą, programinės įrangos sprendimus, duomenų analizę ir kitas inovacijas. Dirbtinis intelektas ir mašininis mokymasis toliau tobulėja, o tai leidžia kurti pažangias programas, kurios automatizuoja ir optimizuoja procesus įvairiose pramonės šakose. Sparti dirbtinio intelekto technologijų plėtra visaverčiam lietuvių kalbos funkcionavimui skaitmeninėje terpėje kelia naujų uždavinių. Siekiant neatsilikti nuo technologijų pokyčių, ekonominės plėtros, reikia kurti skaitmeninius kalbos išteklius, kuriuos naudojant paslaugos būtų inovatyvios, tolygiai prieinamos ir saugios. Įvairiakalbiai tekstynai yra mašininio vertimo pagrindas ir turi milžinišką praktinę reikšmę šiuolaikiniame pasaulyje, ypač Europos Sąjungoje (toliau - ES), kur visi ES valstybių narių dokumentai vienu metu turi būti verčiami į visas oficialias ES kalbas, taip mažinant kalbos barjerą tarp ES piliečių. Norint, kad mašininio vertimo sistemos būtų kuo tikslesnės ir kokybiškesnės, reikia kuo daugiau tekstynų ir ypač svarbu, kad tekstynus kurtų ne tik privatūs verslai, bet ir viešojo sektoriaus institucijos.

Sintetiniai lygiagretūs tekstynai – tai tekstai ir jų vertimų tekstai, sulygiagretinti sakinių lygmeniu. Lygiagrečiuosiuose tekstynuose gali būti sulygiagretinti dviejų ar daugiau kalbų tekstai. Paprastai norint sukaupti lygiagrečiuosius tekstynus reikia skirti daugiau laiko nei sudarant vienakalbius ar palyginamuosius tekstynus, nes neužtenka tik surinkti ir sutvarkyti elektroninius tekstus, bet juos reikia sulygiagretinti. Todėl šių lietuvių kalbos išteklių kūrimas yra sudėtingas ir brangus procesas ir privatus sektorius neinvestuoja lėšų ar laiko, kad kurti šiuos kalbos išteklius. Šioje vietoje yra labai svarbus viešojo sektoriaus vaidmuo. Viešasis sektorius užtikrina, kad kuriami sprendimai būtų kokybiški, reikiamų apimčių ir, kas svarbiausia – sukurti tekstynai bei kiti lietuvių kalbos ištekliai yra patikimi, nemokami ir viešai prieinami, todėl verslo sektorius bei visuomenė jais gali naudoti neinvestuodami savo resursų.

Sintetiniai tekstynai leidžia gerinti mašininio vertimo kokybę. Nepaisant įspūdingos pažangos, neuroninio mašininio vertimo sistemos vis dar susiduria su nepakankamais ištekliais ir dažnai nesugeba atitikti frazėmis pagrįsto vertimo bei užtikrinti tinkamos jo kokybės. Sintetinių tekstynų pagalba sukurti duomenys imituoja natūralią kalbą, kuri ypač naudojama trūkstant faktiniams duomenims mokant mašininio vertimo modelius, kai faktinių duomenų trūksta arba juos gauti brangu.

Problemos, kurios bus išspręstos įgyvendinus Projektą:

  • skaitmeninių kalbos išteklių lietuvių kalba trūkumas. Projekto metu bus sukurti 3 nauji skaitmeniniai lietuvių kalbos ištekliai - trijų kalbos grupių (lietuvių - anglų, lietuvių - prancūzų, lietuvių – vokiečių) sintetiniai lygiagretūs tekstynai;
  • nesudaromos sąlygos kurti naujomis technologijomis pagrįstus sprendimus, juos diegti kuriant pažangias skaitmenines paslaugas ir teikti šias paslaugas visuomenei. Projekto metu bus sukurti 3 lygiagretūs sintetiniai tekstynai, kurių pagalba bus galima vystyti dirbtinio intelekto, neuroninio mašininio vertimo bei mokymosi technologijas.

Taip pat Projektas prisidės prie lietuvių kalbos išsaugojimą ir gyvybingumą palaikančių skaitmeninių išteklių plėtros.

Projekto metu kuriami sintetiniai tekstynai yra unikalūs ištekliai, kurių analogų lietuvių kalba šiuo metu nėra. Sukurti sintetiniai lygiagretūs tekstynai bus nemokamai ir viešai prieinami atvirose prieigose. Jie gali būti panaudojami kuriant naujus mašininio vertimo sprendimus bendrajai arba medicinos sričiai (pvz. medicinos srities šneka į šneką vertimo sistemas, interneto puslapių vertimo įskiepius, įskiepius profesionaliems vertėjams ir t.t.), kuriant naujas ar tobulinant esamas vertimo priemones .

Projektu prisidedama prie 2021–2030 metų Lietuvos Respublikos Ekonomikos ir inovacijų ministerijos valstybės skaitmeninimo plėtros programos pažangos priemonės Nr. 05-002-01-07-08 „Kurti technologinius sprendimus ir įrankius, leidžiančius saugiai ir patogiai naudotis paslaugomis“ veiklos „Kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra“ įgyvendinimo.  

Projektas finansuojamas Ekonomikos gaivinimo ir atsparumo didinimo plano „Naujos kartos Lietuva“ lėšomis.

Bendra projekto vertė

798 592,96 Eur

Projekto veiklų įgyvendinimo pradžia2024 m. rugsėjo 18 d.
Projekto veiklų įgyvendinimo pabaiga2026 m. balandžio 30 d.
Kontaktinis asmuoGiedrė Jakavičienė

 

Atnaujinimo data: 2024-09-30