Nacionalni jezički korpus
38

Bogatstvo bosanskog jezika kroz elektronsku formu: Tekstove svih žanrova imat ćemo na jednom mjestu

S. Š.
Institut za jezik UNSA ima novi plan kojim će bosanski jezik pratiti lingvističke trendove (Foto: Klix.ba)
Institut za jezik UNSA ima novi plan kojim će bosanski jezik pratiti lingvističke trendove (Foto: Klix.ba)
U Sarajevu se rodila ideja o pokretanju projekta bosanskohercegovačkog nacionalnog elektronskog jezičkog korpusa. A o čemu je tačno riječ i kakav značaj nosi upravo ovaj projekat koji tek treba biti implementiran, kontaktirali smo Zenaidu Karavdić iz Instituta za jezik Univerziteta u Sarajevu.

Općenito govoreći, elektronski lingvistički koncept predstavlja bazu podataka koja integriše lingvistiku i informacijske tehnologije radi analize, obrade i generisanja jezičkih podataka. Ovaj koncept koristi računarske algoritme i tehnike za razumijevanje i obradu prirodnog jezika, kao i za automatizaciju jezičkih procesa.

Kada se radi o bh. nacionalnom jezičkom korpusu, on bi predstavljao zbirku tekstova na bosanskom jeziku koja se koristi za lingvistička istraživanja, razvoj jezičkih tehnologija i u druge svrhe.

Ovaj korpus bi obuhvatio širok spektar tekstova različitih žanrova, kao što su književni tekstovi, novinski članci, akademska literatura, internet sadržaji, javni govori, itd. Kao važna baza podataka koristio bi se za analizu jezičkih obrazaca, istraživanje promjena u jeziku kroz vrijeme, razvoj jezičkih modela za obradu prirodnog jezika, kao i za unapređenje računarskih alata kao što su prevoditelji, pretraživači i sintetizatori govora.

Sve "na dohvat ruke"

Međutim, kako bismo detaljnije dobili uvid o kakvom projektu je riječ i kakva je njegova vrijednost, razgovarali smo sa Zenaidom Karavdić iz Instituta za jezik UNSA.

S obzirom da živimo u doba kada je tehnologija umnogome uznapredovala i svakodnevno se nadograđuje, od velikog je značaja imati sve što je potrebno "na dohvat ruke", elektronski dostupno jer smo, priznat ćemo, svi postali prilično lijeni kada se treba nešto pretraživati fizički.

Zahvaljujući ovakvom jezičkom korpusu, mnoštvo različitih tekstova - svih žanrova - imat ćemo u elektronskoj formi.

"Nacionalni jezički korpus je praktično elektronska zbirka velikog broja tekstova različitih vrsta i stilova (novinskih, književnoumjetničkih, administrativnih, naučnih, religijskih, dijalekatskih, tj. govornih, a onda i SMS i ostalih poruka, statusa i komentara na društvenim mrežama, historijskih tekstova, dakle, praktično svih tekstova jednog jezika), koji se mogu pretraživati po različitim parametrima, zavisno od nivoa anotacije (gramatički i ostali podaci o jedinicama - riječima - kao što su rod, broj, padež, lice, vrijeme...)", pojašnjava Karavdić za Klix.ba.

Bosanski jezik mora pratiti moderne lingvističke tokove

Nacionalni jezički korpus moći će poslužiti i kod sastavljanja rječnika, ali može biti i osnova za pravopis i za različita lingvistička istraživanja.

"Elektronski nacionalni korpus trajni je projekt i što je veći, to je relevantniji. Koristi se kao osnova za najrazličitija jezička proučavanja, kao i književnoumjetnička, sociološka i ostala koja se naslanjaju na jezičke pojave. Važan je jer daje relevantne i aktuelne podatke o jeziku, a pretraga se naravno može i sužavati npr. po godinama, vrstama tekstova i sl. Na osnovu korpusa mogu se dalje praviti rječnici, može poslužiti i kao osnova za pravopis i za mnoga druga uže lingvistička istraživanja. Moderna se lingvistika u potpunosti oslanja na korpuse jer, pored toga što brzo daju podatke, relevantniji su od iščitavanja i vađenja primjera iz tekstova, samim tim što je proces automatiziran i što sadrži veliki broj podataka", ističe saradnica na Institutu za jezik.

Kada je riječ o vremenu koji će biti potreban da se ovaj projekat i uvede, Karavdić kaže da će biti potrebno jedna do dvije godine.

"U zavisnosti od brzine unošenja tekstova u korpus, prva verzija za korisnike mogla bi biti otvorena već za godinu-dvije. Važno je napomenuti da se iz korpusa ne mogu preuzimati cjeloviti tekstovi, nego se dobije samo tražena riječ ili sintagma s kontekstom (obično pet riječi prije i poslije). U zavisnosti od platforme, moguće je računati i različite frekvencije pojavljivanja i statističke podatke tražene riječi, sintagme, gramatičkog oblika... Pravljenjem elektronskog nacionalnog jezičkog korpusa, Bosna i Hercegovina uključila bi se u savremene lingvističke tokove i omogućila lakše proučavanje bosanskog jezika kako domaćim lingvistima, tako i svim slavistima i ostalim lingvistima širom svijeta", zaključuje Karavdić.

Bogatstvo jednog naroda je njegov jezik, bosanski jezik je riznica kroz kozu se može puno toga naučiti i o samom narodu. Ova vrsta korpusa od velikog je značaja za očuvanje i razvoj bosanskog jezika te njegovu primjenu u modernim tehnologijama.