Kombinatorika besedotvornih obrazil v slovenščini
Vodja projekta na ZRC
Dr. Boris Kern-
Naslov v izvirniku
Kombinatorika besedotvornih obrazil v slovenščini
Sodelavci
Dr. Tomaž Erjavec, Dr. Boris Kern, Doc. dr. Nina Ledinek, Dr. Andreja Žele, Matej Martinc, Andraž Pelicon, dr. Senja Pollak, dr. Irena Stramljič Breznik, dr. Ines Voršič-
ID oznaka
J6-3131
-
Trajanje projekta
1. oktober 2021–30. september 2024 -
Finančni vir
Javna agencija za raziskovalno dejavnost Republike Slovenije
Cilj projekta je raziskati kombinatoriko besedotvornih obrazil, kar bo omogočilo predstavitev značilnosti besedotvornega in pomenotvornega mehanizma slovenskega jezika, in sicer na sodobnem gradivu, ki vključuje vse sodobne slovarje slovenskega jezika in sodobne korpuse, ter z vključitvijo najsodobnejših raziskovalnih metod s področja jezikoslovja in jezikovnih tehnologij. Za slovenščino je – tako kot tudi za druge slovanske jezike – značilna izredno bogata morfemska zgradba besed, ki je posledica večstopenjske tvorbe: npr. iz pridevnika mlad tvorimo na prvi stopnji samostalnik mladost, iz njega na drugi stopnji pridevnik mladosten, iz njega tretjestopenjski samostalnik mladostnik, iz njega pa svojilni pridevnik mladostnikov, ki je četrte stopnje. Primer izkazuje družljivost naslednjih štirih priponskih obrazil: -ost + -en + -ik + ‑ov, pri čemer družljivost obrazil razumemo kot sposobnost soobstajanja različnih besedotvornih obrazil v okviru večstopenjske tvorbe in ob upoštevanju pomenotvornega vidika. S tem bo v slovenskem jezikoslovnem prostoru vzpostavljeno novo raziskovalno področje – morfotaktika.
Jezikovnotehnološki cilj projekta pa je pionirska izgradnja prve učne množice in prve jezikovnotehnološke aplikacije, ki bo omogočala avtomatsko morfemsko segmentacijo besed slovenskega jezika, kar je ključnega pomena za razvoj tudi semantičnih jezikovnih virov in jezikovnih tehnologij za slovenščino, nesporen pomen pa ima seveda tudi za jezikoslovje. Tudi jezikovnotehnološki cilji potrjujejo, da je prijavljeni projekt strateškega pomena, saj je razvoj različnih jezikovnih tehnologij imperativ vseh sodobnih jezikov, hkrati pa bodo rezultati omogočali vključevanje v mednarodni raziskovalni prostor, med drugim s konfrontacijami z raziskovanjem morfološko (besedotvorno) genetsko bolj (drugi slovanski jeziki) ali manj sorodnih jezikov (neslovanski). Razumevanje morfološke segmentacije ima velik potencial tudi za nadgradnjo modelov globokega učenja (glej Hofmann idr. 2020b), na katerih temelji večina sodobnih jezikovnotehnoloških orodij. Prijavljeni projekt zagotavlja uporabno vrednost v številnih nadaljnjih aplikativnih projektih (uporaba pri sintetizatorjih govora, kar je pomembno tako z vidika vključevanja jezikovnih uporabnic in uporabnikov ranljivih družbenih skupin kot razvoja pametnih naprav, robotike ipd.).
FAZA 1: DIGITALITACIJA IN FORMALIZACIJA OBSTOJEČIH TISKANIH BESEDOTVORNIH VIROV SLOVENSKEGA JEZIKA
(oktober 2021–januar 2022)
- zapis podatkov v namensko izdelanem formalizmu
- izdelava sheme podatkovne baze besedotvorja, narejene na osnovi obstoječih virov
- izluščenje statistično relevantnih podatkov o pogostnostni distribuciji in kombinatoriki priponskih morfemov v slovenščini
FAZA 2: PREGLED IN EVALVACIJA IZLUŠČENEGA NABORA KOMBINACIJ BESEDOTVORNIH OBRAZIL
(januar–junij 2022)
- oblikovanje končnega nabora kombinacij besedotvornih obrazil
- popis tipičnih glasovnih premen na morfemskih šivih
- popis krnitve morfemov
FAZA 3: UPORABA DRUGIH SLOVARSKIH VIROV
(januar–september 2022)
- identifikacija istovrstnih tvorjenk v drugih slovarskih virih
- popis novih tipov tvorjenk in kombinacij besedotvornih obrazil
FAZA 4: ANALIZA PRIDOBLJENIH PODATKOV
(april 2022–september 2023)
- analiza frekvence in kombinatorike priponskih obrazil v drugih slovarskih virih
- analiza pomenskih funkcij besedotvornih obrazil in iz njih izhajajočih omejitev v kombinatoriki
- analiza kombinatorike posameznih sestavin tvorjenk glede na prevzetost
- analiza kombinatorike posameznih sestavin tvorjenk glede na konotativnost posameznih sestavin
- analiza tvorbe feminativov, predvsem zakonitosti distribucije konkurenčnih obrazil
FAZA 5: UPORABA KORPUSNIH VIROV
(oktober 2022–september 2023)
- identifikacija istovrstnih tvorjenk v korpusnih virih
- popis novih tipov tvorjenk in kombinacij besedotvornih obrazil
- primerjava kombinatorike priponskih obrazil na predhodno dobljenem gradivu in v specializiranih korpusih, npr. Janes ipd.
- jezikoslovna analiza pridobljenih podatkov
FAZA 6: PRIPRAVA UČNE MNOŽICE ZA MORFEMSKO ANALIZO BESED IN UPORABA STROJNEGA UČENJA
(oktober 2022–februar 2024)
- priprava učne množice za avtomatsko morfemsko analizo poljubnega besedišča
- strojno učenje na osnovi teh podatkov, vključno s preizkusom metod globokega strojnega učenja
FAZA 7: OBJAVA SINTEZE UGOTOVITEV BESEDOTVORNE ANALIZE
(oktober 2022–september 2024)
- sinteza analize podatkov, pridobljenih v slovarskih virih in korpusih
- evalvacija rezultatov avtomatske morfemizacije poljubnih besed
- predstavitev rezultatov raziskave na konferencah
- priprava monografije, ki bo na sodobnem gradivu prikazala kombinatoriko besedotvornih obrazil in s tem delovanje besedotvornega in pomenotvornega mehanizma v slovenščini