Pereiti į pagrindinį turinį

Lietuvių kalba – iššūkis kompiuteriui

2015-05-08 15:56

Kalba užima išskirtinę vietą tarp kitų komunikacinių sistemų – tik ji garantuoja visavertį žmonių bendravimą. Lingvistė, habilituota humanitarinių mokslų daktarė Rūta Petrauskaitė įsitikinusi: žmonėms geriausia informaciją kurti, kaupti ir perteikti žmonių kalbos tekstu, kad ir koks sudėtingas ir painus informacijos būdas tai būtų.

Shutterstock nuotr.

Kalba užima išskirtinę vietą tarp kitų komunikacinių sistemų – tik ji garantuoja visavertį žmonių bendravimą. Lingvistė, habilituota humanitarinių mokslų daktarė Rūta Petrauskaitė įsitikinusi: žmonėms geriausia informaciją kurti, kaupti ir perteikti žmonių kalbos tekstu, kad ir koks sudėtingas ir painus informacijos būdas tai būtų.

Kompiuterizavimo svarba

Šiandien kompiuteriui suprantama tik sterili ir ganėtinai primityvi kalba, be dviprasmybių, neaiškumų. Tai trukdo išnaudoti kompiuterį tokiose darbo srityse, kuriose žmogus sugaišta daug daugiau laiko, nei tai atliktų pasitelkdamas kompiuterį.

Žmogaus ir mašinos bendravimas taip, kad būtų patogu žmogui, o ne kompiuteriui, jo gimtąja, natūralia, nė kiek neapribota kalba, yra laikomas didžiausiu informacinės visuomenės pranašumu. Tai – mokslininkų, plečiančių dirbtinio intelekto galimybes, darbo laukas.

Lietuvių kalba ir jos kompiuterizavimas – Vytauto Didžiojo universiteto (VDU) Kompiuterinės lingvistikos centro darbo sritis. Prieš du dešimtmečius jis pirmasis pradėjo tokio pobūdžio veiklą Lietuvoje.

"Tokia sudėtinga ir mažai gimtakalbių turinti kalba, kokia yra lietuvių, turi daug mažiau galimybių išlikti, todėl jos kompiuterizavimas ypač aktualus. Jis svarbus ne tik siekiant išsaugoti kalbą, bet ir dėl daugelio kitų priežasčių", – teigia R.Petrauskaitė.

Padeda tirti visuomenę

Kompiuterinės lingvistikos taikymas leidžia ne tik efektyviau ieškoti informacijos, naudotis kompiuteriniu vertimu, mokytis kalbų, bet ir automatiškai užrašyti šneką. Pavyzdžiui, Nyderlanduose gydytojui nieko nereikia rašyti. Gydytojai informaciją apie paciento būklę diktuoja kompiuteriui, kuris informaciją suveda į ligos kortelę. Kompiuteris taip įdarbintas, kad net nusiunčia gydytojo receptą į vaistinę, o pacientui reikia tik nueiti ir nusipirkti vaistus.

JAV kompiuterinė lingvistika pasitelkiama sekimo ir šnipinėjimo tikslais – taip sekami ir analizuojami teroristų, nusikaltėlių susirašinėjimai ir aptinkami jų tinklai.
Visose šalyse kompiuterinės lingvistikos galimybės naudojamos nustatant mokslinių darbų, ir ne tik jų, plagiatus, norint sudaryti didžiulių tekstų santraukas ar išgauti informaciją ir nagrinėti tekstų, vaizdų ir garso įrašų turinio ypatybes.

Pasak R.Petrauskaitės, visuomenėje vyrauja klaidinga nuomonė, kad filologas negali mokėti programuoti, o informatikas – kompiuteriu analizuoti kalbos.

"Kompiuterinė lingvistika yra tarpdalykinė veiklos sritis. Čia susiduria dviejų skirtingų mokslų atstovų – kalbininkų ir informatikų – požiūris į kalbą. Taip bendradarbiaujant galima nagrinėti daug įvairių dalykų. Pavyzdžiui, šiuo metu VDU Kompiuterinės lingvistikos centras vykdo vieną įdomų projektą – internetinių straipsnių komentarų analizę. Toks komentarų tyrimas gali padėti nuspėti bendras visuomenės nuotaikas, nustatyti patyčias, netgi grėsmes, padeda identifikuoti komentatorių tipažus", – atskleidė VDU dėstytoja.

Jos manymu, šiandienė informacijos priemonių stebėsena, kurią užsisako didžiosios kompanijos, norinčios sužinoti, koks jų įvaizdis vyrauja viešojoje erdvėje, dažnai nėra išsami arba tiksli.

"Galima teigti, kad dabar esančios kokybinės spaudos analizės priemonės nėra tobulos, nes įrankiai, kuriais jie naudojasi, nėra ušbaigti. Norint, kad kokybinė analizė būtų tiksli, reikia atlikti vadinamąją sentimentų analizę, įvertinti tiriamojo teksto toną ir kt., neužtenka tik surašyti tiriamos kompanijos pastabas, paminėtus dalykus ir pagal tai daryti vertinimus", – įsitikinusi kompiuterinės lingvistikos ekspertė.

Pagalba vertėjams

Jau seniai kompiuterinės lingvistikos galimybės leidžia ne tik taisyklingai sukirčiuoti žodžius, išsiaiškinti nežinomo žodžio reikšmę, morfologiškai išnagrinėti bet kokią kalbos dalį ar sudaryti tam tikrą veiksmažodžio formą, bet ir tą žodį, netgi visą tekstą, pagal skirtingus parametrus įvairiapusiškai išanalizuoti.

Kalbos analizės programos atlieka daug funkcijų: skaičiuoja ženklus, žodžius, sakinius, sakinio ir žodžio ilgį, automatiškai nustato kalbos dalis, sakinio ribas, nustato sustabarėjusius žodžių junginius, verčia ir net kuria tekstus. Lygiagretusis tekstynas palengvina vertimą, nes iš jo galima perimti atitikmenis.

Svetainėje http://tekstynas.vdu.lt/ esanti vertimo sistema verčia kur kas geriau ir tiksliau nei tuo pačiu metu kurtas "Google" vertėjas, nors visada yra ką patobulinti.

Vienu didžiausių savo pasiekimų Kompiuterinės lingvistikos centro mokslininkai laiko analogų Lietuvoje neturinčio Dabartinės lietuvių kalbos tekstyno suformavimą ir kalbinių bei semantinių technologijų vystymo projekto kodiniu pavadinimu "Semantika LT" įgyvendinimą.

Nors galutiniai projekto "Semantika LT" tikslai buvo kalbos ir semantinėmis technologijomis grįstų viešųjų paslaugų kūrimas, bet tai pavyko padaryti tik įvykdžius esminį proveržį lietuvių rašytinės kalbos analizės technologijose. To anksčiau nebuvo įmanoma atlikti dėl riboto valstybės finansavimo ir per mažo dėmesio šiai sričiai.

"Lietuva pagaliau priartėjo prie Europos kalbos technologijų išvystymo vidurkio, nuo kurio buvo atsilikusi daugiau nei aštuoneriais metais. Pasinaudodami projekto rezultatais, vartotojai viešai ir nemokamai prieinama informacine sistema galės atlikti sintaksinę-semantinę tekstų analizę, surasti ir koreguoti rašybos bei gramatikos klaidas, atpažinti interneto žiniasklaidos kalbos naujoves, atlikti interneto žiniasklaidos sintaksinę-semantinę analizę", – rezultatais džiaugiasi mokslininkė. Jos teigimu, tai ne tik skatins taisyklingos lietuvių kalbos vartojimą elektroninėje erdvėje, bet ir bus lengviau surasti informacijos lietuvių kalba ir ją analizuoti.

Naujausi komentarai

Komentarai

  • HTML žymės neleidžiamos.

Komentarai

  • HTML žymės neleidžiamos.
Atšaukti
Komentarų nėra
Visi komentarai (0)

Daugiau naujienų