Skip to main content

Kombinatorika besedotvornih obrazil v slovenščini

Opis

Cilj projekta je raziskati kombinatoriko besedotvornih obrazil, kar bo omogočilo predstavitev značilnosti besedotvornega in pomenotvornega mehanizma slovenskega jezika, in sicer na sodobnem gradivu, ki vključuje vse sodobne slovarje slovenskega jezika in sodobne korpuse, ter z vključitvijo najsodobnejših raziskovalnih metod s področja jezikoslovja in jezikovnih tehnologij. Za slovenščino je – tako kot tudi za druge slovanske jezike – značilna izredno bogata morfemska zgradba besed, ki je posledica večstopenjske tvorbe: npr. iz pridevnika mlad tvorimo na prvi stopnji samostalnik mladost, iz njega na drugi stopnji pridevnik mladosten, iz njega tretjestopenjski samostalnik mladostnik, iz njega pa svojilni pridevnik mladostnikov, ki je četrte stopnje. Primer izkazuje družljivost naslednjih štirih priponskih obrazil: -ost + -en + -ik + ‑ov, pri čemer družljivost obrazil razumemo kot sposobnost soobstajanja različnih besedotvornih obrazil v okviru večstopenjske tvorbe in ob upoštevanju pomenotvornega vidika. S tem bo v slovenskem jezikoslovnem prostoru vzpostavljeno novo raziskovalno področje – morfotaktika.

Jezikovnotehnološki cilj projekta pa je pionirska izgradnja prve učne množice in prve jezikovnotehnološke aplikacije, ki bo omogočala avtomatsko morfemsko segmentacijo besed slovenskega jezika, kar je ključnega pomena za razvoj tudi semantičnih jezikovnih virov in jezikovnih tehnologij za slovenščino, nesporen pomen pa ima seveda tudi za jezikoslovje. Tudi jezikovnotehnološki cilji potrjujejo, da je prijavljeni projekt strateškega pomena, saj je razvoj različnih jezikovnih tehnologij imperativ vseh sodobnih jezikov, hkrati pa bodo rezultati omogočali vključevanje v mednarodni raziskovalni prostor, med drugim s konfrontacijami z raziskovanjem morfološko (besedotvorno) genetsko bolj (drugi slovanski jeziki) ali manj sorodnih jezikov (neslovanski). Razumevanje morfološke segmentacije ima velik potencial tudi za nadgradnjo modelov globokega učenja (glej Hofmann idr. 2020b), na katerih temelji večina sodobnih jezikovnotehnoloških orodij. Prijavljeni projekt zagotavlja uporabno vrednost v številnih nadaljnjih aplikativnih projektih (uporaba pri sintetizatorjih govora, kar je pomembno tako z vidika vključevanja jezikovnih uporabnic in uporabnikov ranljivih družbenih skupin kot razvoja pametnih naprav, robotike ipd.). 


Faze projekta

FAZA 1: DIGITALITACIJA IN FORMALIZACIJA OBSTOJEČIH TISKANIH BESEDOTVORNIH VIROV SLOVENSKEGA JEZIKA

(oktober 2021–januar 2022)

  • zapis podatkov v namensko izdelanem formalizmu
  • izdelava sheme podatkovne baze besedotvorja, narejene na osnovi obstoječih virov
  • izluščenje statistično relevantnih podatkov o pogostnostni distribuciji in kombinatoriki priponskih morfemov v slovenščini

FAZA 2: PREGLED IN EVALVACIJA IZLUŠČENEGA NABORA KOMBINACIJ BESEDOTVORNIH OBRAZIL

(januar–junij 2022)

  • oblikovanje končnega nabora kombinacij besedotvornih obrazil
  • popis tipičnih glasovnih premen na morfemskih šivih
  • popis krnitve morfemov

 

FAZA 3: UPORABA DRUGIH SLOVARSKIH VIROV

(januar–september 2022)

  • identifikacija istovrstnih tvorjenk v drugih slovarskih virih
  • popis novih tipov tvorjenk in kombinacij besedotvornih obrazil

 

FAZA 4: ANALIZA PRIDOBLJENIH PODATKOV

(april 2022–september 2023)

  • analiza frekvence in kombinatorike priponskih obrazil v drugih slovarskih virih
  • analiza pomenskih funkcij besedotvornih obrazil in iz njih izhajajočih omejitev v kombinatoriki
  • analiza kombinatorike posameznih sestavin tvorjenk glede na prevzetost
  • analiza kombinatorike posameznih sestavin tvorjenk glede na konotativnost posameznih sestavin
  • analiza tvorbe feminativov, predvsem zakonitosti distribucije konkurenčnih obrazil

 

FAZA 5: UPORABA KORPUSNIH VIROV

(oktober 2022–september 2023)

  • identifikacija istovrstnih tvorjenk v korpusnih virih
  • popis novih tipov tvorjenk in kombinacij besedotvornih obrazil
  • primerjava kombinatorike priponskih obrazil na predhodno dobljenem gradivu in v specializiranih korpusih, npr. Janes ipd.
  • jezikoslovna analiza pridobljenih podatkov

 

FAZA 6: PRIPRAVA UČNE MNOŽICE ZA MORFEMSKO ANALIZO BESED IN UPORABA STROJNEGA UČENJA

(oktober 2022–februar 2024)

  • priprava učne množice za avtomatsko morfemsko analizo poljubnega besedišča
  • strojno učenje na osnovi teh podatkov, vključno s preizkusom metod globokega strojnega učenja

 

FAZA 7: OBJAVA SINTEZE UGOTOVITEV BESEDOTVORNE ANALIZE

(oktober 2022–september 2024)

  • sinteza analize podatkov, pridobljenih v slovarskih virih in korpusih
  • evalvacija rezultatov avtomatske morfemizacije poljubnih besed
  • predstavitev rezultatov raziskave na konferencah
  • priprava monografije, ki bo na sodobnem gradivu prikazala kombinatoriko besedotvornih obrazil in s tem delovanje besedotvornega in pomenotvornega mehanizma v slovenščini

 


Raziskovalni projekt