eSSKJ in korpus — na poti k najsodobnejšim jezikovnim podatkom
Vodja projekta na ZRC
Doc. dr. Nina LedinekSodelavci
Dr. Duša Divjak Race, Dr. Tomaž Erjavec, Dr. Janoš Ježovnik, Dr. Mateja Jemec Tomazin, Dr. Domen Krvina, Dr. Andrej Perdih, Dr. Mitja Trojar, Miro Romih, Luka Romih-
Trajanje projekta
28. marec 2023–31. oktober 2023 -
Finančni vir
Ministrstvo za kulturo Republike Slovenije
Projekt eSSKJ in korpus — na poti k najsodobnejšim jezikovnim podatkom je namenjen nadgradnji 2 gradnikov slovenske jezikovne infrastrukture: nadgradnji temeljnega enojezičnega splošnega razlagalnega slovarja slovenščine eSSKJ, Slovarja slovenskega knjižnega jezika, tretja izdaja, na ravni formata zapisa in prikaza kolokacijskih podatkov, in izgradnji po sodobnih standardih označenega in z metapodatki podrobno dokumentiranega novega korpusa znanstvenih besedil sodobne slovenščine.
Temeljni enojezični splošni razlagalni slovar je v Resoluciji o nacionalnem programu za jezikovno politiko 2021–2025 opredeljen kot eden od dveh najpomembnejših gradnikov jezikovnega opisa za slovenščino. V projektu bodo so predvideni trije vidiki nadgradnje edinega takega sodobnega slovarja za slovenščino. Tehnološka nadgradnja predvideva prenovo formata zapisa podatkov o tipičnih kolokatorjih in skladenjskih vzorcih leksemov v slovarski podatkovni bazi na način, da bo omogočena povezljivost in izmenljivost podatkov med različnimi viri, kar bo zaradi odprte dostopnosti podatkov pripomoglo k tehnološko učinkovitejši in hitrejši izdelavi tako eSSKJ kot drugih virov. Ključen nov prispevek vsebinske nadgradnje bo, da bodo kolokatorji, ki so kot iztočnice že opisani v slovarski bazi eSSKJ, prvič doslej v slovenskih slovarjih opredeljeni tudi pomensko, zato bo uporabnikom na voljo več podatkov o tipičnem besedilnem okolju slovenskih leksemov kot kadarkoli doslej. Novi korpus znanstvenih besedil sodobne slovenščine bo hkrati pomembna gradivska nadgradnja virov, na katerih eSSKJ temelji, obenem bo zaradi vključenih metapodatkov omogočal nadgradnjo, ki bo izhodišče za oblikovanje novih terminoloških slovarjev.
eSSKJ:
Aktivnost 1.1: Priprava tehničnih specifikacij o novem formatu zapisa podatkov o kolokabilnosti v eSSKJ v označevalnem jeziku XML.
Aktivnost 1.2: Pretvorba zapisa kolokacijskih nizov v eSSKJ iz obstoječega formata v ciljni format.
Aktivnost 1.3: Dokumentacija zbirke kolokacijskih podatkov eSSKJ ter njena objava kot odprto dostopne podatkovne zbirke v repozitoriju raziskovalne infrastrukture CLARIN.SI.
Aktivnost 1.4: Zasnova naprednejšega grafičnega prikaza in funkcionalnosti kolokacijskih podatkov v eSSKJ za portal Fran.
Korpus:
Aktivnost 2.1: Priprava specifikacij o obsegu, besedilnotipski zasnovi korpusa in o metabesedilnem dokumentiranju korpusa ter izvoz metapodatkov in strokovnih ter znanstvenih besedil s platform za brezplačno upravljanje/objavljanje strokovnih recenziranih revij in monografij Open Journal Systems ter Open Monograph.
Aktivnost 2.2: Pretvorba strokovnih in znanstvenih besedil iz formata PDF v golobesedilni format (.txt), ročno preverjanje ustreznosti strojne pretvorbe ter tokenizacija, lematizacija, oblikoskladenjsko označevanje korpusa v skladu z najsodobnejšimi standardi jezikoslovnega označevanja korpusov.
Aktivnost 2.3: Zapis korpusa v skladu s standardi za zapis korpusnih podatkovnih zbirk.
Aktivnost 2.4: Vključitev korpusa v konkordančnike raziskovalne infrastrukture CLARIN.SI, dokumentiranje korpusa in njegova objava kot odprto dostopne podatkovne zbirke v repozitoriju raziskovalne infrastrukture CLARIN.SI.
Aktivnost 2.5: Priprava načrta za vključitev korpusa ali njegovih podkorpusov v obsežnejše že obstoječe korpusne podatkovne zbirke.