2024-10-04

Visaverčiam lietuvių kalbos funkcionavimui skaitmeninėje erdvėje bus kuriami sintetiniai lygiagretūs tekstynai. VSSA įgyvendina projektą „Sintetinių lygiagrečių tekstynų sukūrimas“.

Sparti dirbtinio intelekto technologijų plėtra visaverčiam lietuvių kalbos funkcionavimui skaitmeninėje terpėje kelia naujų uždavinių. Siekiant neatsilikti nuo technologijų pokyčių, ekonominės plėtros, reikia kurti skaitmeninius kalbos išteklius, kuriuos naudojant paslaugos būtų inovatyvios, tolygiai prieinamos ir saugios. Įvairiakalbiai tekstynai yra mašininio vertimo pagrindas ir turi milžinišką praktinę reikšmę šiuolaikiniame pasaulyje, ypač Europos Sąjungoje (toliau - ES), kur visi ES valstybių narių dokumentai vienu metu turi būti verčiami į visas oficialias ES kalbas, taip mažinant kalbos barjerą tarp ES piliečių. Norint, kad mašininio vertimo sistemos būtų kuo tikslesnės ir kokybiškesnės, reikia kuo daugiau tekstynų ir ypač svarbu, kad tekstynus kurtų ne tik privatūs verslai, bet ir viešojo sektoriaus institucijos.

Siekiant sudaryti sąlygas kurti naujomis technologijomis pagrįstus sprendimus, juos diegti kuriant pažangias skaitmenines paslaugas ir teikti šias paslaugas visuomenei bei didinti skaitmeninių kalbos išteklius lietuvių kalbas Valstybės skaitmeninių sprendimų agentūra įgyvendins projektą „Sintetinių lygiagrečių tekstynų sukūrimas“.

Projekto tikslas - sukurti sintetinius lygiagrečius tekstynus, reikalingus dirbtinio intelekto sistemų vystymui ir automatinio mašininio vertimo priemonių tobulinimui/kūrimui.

Sintetiniai tekstynai leidžia gerinti mašininio vertimo kokybę. Nepaisant įspūdingos pažangos, neuroninio mašininio vertimo sistemos vis dar susiduria su nepakankamais ištekliais ir dažnai nesugeba atitikti frazėmis pagrįsto vertimo bei užtikrinti tinkamos jo kokybės. Sintetinių tekstynų pagalba sukurti duomenys imituoja natūralią kalbą, kuri ypač naudojama trūkstant faktiniams duomenims mokant mašininio vertimo modelius, kai faktinių duomenų trūksta arba juos gauti brangu.

Projekto metu bus sukurti 3 nauji skaitmeniniai lietuvių kalbos ištekliai - trijų kalbos grupių (lietuvių - anglų, lietuvių - prancūzų, lietuvių – vokiečių) sintetiniai lygiagretūs tekstynai

Projekto metu bus sukurti 3 lygiagretūs sintetiniai tekstynai, kurių pagalba bus galima vystyti dirbtinio intelekto, neuroninio mašininio vertimo bei mokymosi technologijas

Taip pat Projektas prisidės prie lietuvių kalbos išsaugojimą ir gyvybingumą palaikančių skaitmeninių išteklių plėtros.

Projektas finansuojamas Ekonomikos gaivinimo ir atsparumo didinimo plano „Naujos kartos Lietuva“ lėšomis“.

Daugiau apie projektą: Sintetinių lygiagrečių tekstynų sukūrimas - Valstybės skaitmeninių sprendimų agentūra (lrv.lt)

Sparti dirbtinio intelekto technologijų plėtra visaverčiam lietuvių kalbos funkcionavimui skaitmeninėje terpėje kelia naujų uždavinių. Siekiant neatsilikti nuo technologijų pokyčių, ekonominės plėtros, reikia kurti skaitmeninius kalbos išteklius, kuriuos naudojant paslaugos būtų inovatyvios, tolygiai prieinamos ir saugios. Įvairiakalbiai tekstynai yra mašininio vertimo pagrindas ir turi milžinišką praktinę reikšmę šiuolaikiniame pasaulyje, ypač Europos Sąjungoje (toliau - ES), kur visi ES valstybių narių dokumentai vienu metu turi būti verčiami į visas oficialias ES kalbas, taip mažinant kalbos barjerą tarp ES piliečių. Norint, kad mašininio vertimo sistemos būtų kuo tikslesnės ir kokybiškesnės, reikia kuo daugiau tekstynų ir ypač svarbu, kad tekstynus kurtų ne tik privatūs verslai, bet ir viešojo sektoriaus institucijos.

Siekiant sudaryti sąlygas kurti naujomis technologijomis pagrįstus sprendimus, juos diegti kuriant pažangias skaitmenines paslaugas ir teikti šias paslaugas visuomenei bei didinti skaitmeninių kalbos išteklius lietuvių kalbas Valstybės skaitmeninių sprendimų agentūra įgyvendins projektą „Sintetinių lygiagrečių tekstynų sukūrimas“.

Projekto tikslas - sukurti sintetinius lygiagrečius tekstynus, reikalingus dirbtinio intelekto sistemų vystymui ir automatinio mašininio vertimo priemonių tobulinimui/kūrimui.

Sintetiniai tekstynai leidžia gerinti mašininio vertimo kokybę. Nepaisant įspūdingos pažangos, neuroninio mašininio vertimo sistemos vis dar susiduria su nepakankamais ištekliais ir dažnai nesugeba atitikti frazėmis pagrįsto vertimo bei užtikrinti tinkamos jo kokybės. Sintetinių tekstynų pagalba sukurti duomenys imituoja natūralią kalbą, kuri ypač naudojama trūkstant faktiniams duomenims mokant mašininio vertimo modelius, kai faktinių duomenų trūksta arba juos gauti brangu.

Projekto metu bus sukurti 3 nauji skaitmeniniai lietuvių kalbos ištekliai - trijų kalbos grupių (lietuvių - anglų, lietuvių - prancūzų, lietuvių – vokiečių) sintetiniai lygiagretūs tekstynai

Projekto metu bus sukurti 3 lygiagretūs sintetiniai tekstynai, kurių pagalba bus galima vystyti dirbtinio intelekto, neuroninio mašininio vertimo bei mokymosi technologijas

Taip pat Projektas prisidės prie lietuvių kalbos išsaugojimą ir gyvybingumą palaikančių skaitmeninių išteklių plėtros.

Projektas finansuojamas Ekonomikos gaivinimo ir atsparumo didinimo plano „Naujos kartos Lietuva“ lėšomis“.

Daugiau apie projektą: Sintetinių lygiagrečių tekstynų sukūrimas - Valstybės skaitmeninių sprendimų agentūra (lrv.lt)