Kombinatorika besedotvornih obrazil v slovenščini
Vodja projekta na ZRC
Doc. dr. Boris Kern-
Naslov v izvirniku
Kombinatorika besedotvornih obrazil v slovenščini
Sodelavci
Dr. Tomaž Erjavec, Doc. dr. Boris Kern, Doc. dr. Nina Ledinek, Akad. dr. Andreja Žele, Matej Martinc, Andraž Pelicon, dr. Senja Pollak, dr. Irena Stramljič Breznik, dr. Ines Voršič, Marko Pranjić-
ARIS šifra projekta
J6-3131
-
Trajanje projekta
1. oktober 2021–30. september 2025 -
Finančni vir
Javna agencija za raziskovalno dejavnost Republike Slovenije
Cilj projekta je bil raziskati kombinatoriko besedotvornih obrazil, kar je omogočilo predstavitev značilnosti besedotvornega in pomenotvornega mehanizma slovenskega jezika na sodobnem gradivu, ki je vključevalo vse sodobne slovarje slovenskega jezika in sodobne korpuse, ter z vključitvijo najsodobnejših raziskovalnih metod s področja jezikoslovja in jezikovnih tehnologij. Za slovenščino je – tako kot tudi za druge slovanske jezike – značilna izredno bogata morfemska zgradba besed, ki je posledica večstopenjske tvorbe: npr. iz pridevnika mlad tvorimo na prvi stopnji samostalnik mladost, iz njega na drugi stopnji pridevnik mladosten, iz njega tretjestopenjski samostalnik mladostnik, iz njega pa svojilni pridevnik mladostnikov, ki je četrte stopnje. Primer izkazuje družljivost naslednjih štirih priponskih obrazil: -ost + -en + -ik + -ov, pri čemer družljivost obrazil razumemo kot sposobnost soobstajanja različnih besedotvornih obrazil v okviru večstopenjske tvorbe in ob upoštevanju pomenotvornega vidika. S tem se je v slovenskem jezikoslovnem prostoru vzpostavilo novo raziskovalno področje – morfotaktika.
Jezikovnotehnološki cilj projekta je bila pionirska izgradnja prve učne množice in prve jezikovnotehnološke aplikacije, ki je omogočila avtomatsko morfemsko segmentacijo besed slovenskega jezika, kar je ključnega pomena za razvoj tudi semantičnih jezikovnih virov in jezikovnih tehnologij za slovenščino, pomembno vrednost pa ima seveda tudi za jezikoslovje. Tudi jezikovnotehnološki cilji so potrdili, da je bil projekt strateškega pomena, saj je razvoj različnih jezikovnih tehnologij imperativ vseh sodobnih jezikov, rezultati pa so omogočili vključevanje v mednarodni raziskovalni prostor, med drugim s konfrontacijami z raziskovanjem morfološko (besedotvorno) genetsko bolj (drugi slovanski jeziki) ali manj sorodnih jezikov (neslovanski). V okviru projekta je bila organizirana tudi 23. mednarodna znanstvena konferenca Komisije za besedotvorje pri Mednarodnem slavističnem komiteju, ki se je je udeležilo 53 članic_ov Komisije za besedotvorje, sodelavk_cev projekta KOBOS in povabljenih jezikoslovk_cev iz Slovenije, Nemčije, Hrvaške in Poljske s 43 prispevki, ki so se osredotočali na diahrono, zlasti pa sinhrono obravnavo večstopenjskih tvorjenk. Gre za izjemen uspeh, da se je toliko raziskovalk_cev posvetilo temi, ki je osnova projektne prijave.
Razumevanje morfološke segmentacije je izkazalo velik potencial tudi za nadgradnjo modelov globokega učenja, na katerih temelji večina sodobnih jezikovnotehnoloških orodij. Rezultati projekta imajo uporabno vrednost v številnih nadaljnjih aplikativnih projektih (uporaba pri sintetizatorjih govora, kar je pomembno tako z vidika vključevanja jezikovnih uporabnic_ov ranljivih družbenih skupin kot razvoja pametnih naprav, robotike ipd.).
FAZA 1: DIGITALIZACIJA IN FORMALIZACIJA OBSTOJEČIH TISKANIH BESEDOTVORNIH VIROV SLOVENSKEGA JEZIKA
(oktober 2021–januar 2022)
- podatke smo zapisali v namensko izdelanem formalizmu;
- izdelali smo shemo podatkovne baze besedotvorja na osnovi obstoječih virov;
- izluščili smo statistično relevantne podatke o pogostnostni distribuciji in kombinatoriki priponskih morfemov v slovenščini.
FAZA 2: PREGLED IN EVALVACIJA IZLUŠČENEGA NABORA KOMBINACIJ BESEDOTVORNIH OBRAZIL
(januar–junij 2022)
- oblikovali smo končni nabor kombinacij besedotvornih obrazil;
- popisali smo tipične glasovne premene na morfemskih šivih;
- popisali smo krnitve morfemov.
FAZA 3: UPORABA DRUGIH SLOVARSKIH VIROV
(januar–marec 2023)
- identificirali smo istovrstne tvorjenke v drugih slovarskih virih;
- popisali smo nove tipe tvorjenk in kombinacij besedotvornih obrazil.
FAZA 4: ANALIZA PRIDOBLJENIH PODATKOV
(april 2022–september 2023)
- analizirali smo frekvenco in kombinatoriko priponskih obrazil v drugih slovarskih virih;
- analizirali smo pomenske funkcije besedotvornih obrazil in iz njih izhajajoče omejitve v kombinatoriki;
- analizirali smo kombinatoriko posameznih sestavin tvorjenk glede na prevzetost;
- analizirali smo kombinatoriko posameznih sestavin tvorjenk glede na konotativnost posameznih sestavin;
- analizirali smo tvorbo feminativov, predvsem zakonitosti distribucije konkurenčnih obrazil.
FAZA 5: UPORABA KORPUSNIH VIROV
(oktober 2022–december 2022)
- identificirali smo istovrstne tvorjenke v korpusnih virih;
- popisali smo nove tipe tvorjenk in kombinacij besedotvornih obrazil;
- primerjali smo kombinatoriko priponskih obrazil na predhodno dobljenem gradivu in v specializiranih korpusih, npr. Janes;
- izvedli smo jezikoslovno analizo pridobljenih podatkov.
FAZA 6: PRIPRAVA UČNE MNOŽICE ZA MORFEMSKO ANALIZO BESED IN UPORABA STROJNEGA UČENJA
(oktober 2024–februar 2025)
- pripravili smo učno množico za avtomatsko morfemsko analizo poljubnega besedišča;
- izvedli smo strojno učenje na osnovi teh podatkov, vključno s preizkusom metod globokega strojnega učenja.
FAZA 7: OBJAVA SINTEZE UGOTOVITEV BESEDOTVORNE ANALIZE
(oktober 2022–september 2025)
- pripravili smo sintezo analize podatkov, pridobljenih v slovarskih virih in korpusih;
- evalvirali smo rezultate avtomatske morfemizacije poljubnih besed;
- predstavili smo rezultate raziskave na konferencah;
- pripraviljamo monografijo, ki je na sodobnem gradivu prikazala kombinatoriko besedotvornih obrazil in s tem delovanje besedotvornega in pomenotvornega mehanizma v slovenščini.
Dela, izdana v okviru projekta
[1] ERJAVEC, Tomaž, PRANJIĆ, Marko, PELICON, Andraž, KERN, Boris, STRAMLJIČ BREZNIK, Irena, POLLAK, Senja. Automating derivational morphology for Slovenian. V: MEDVEĎ, Marek (ur.), et al. eLex 2023: electronic lexicography in the 21st century (eLex 2023): proceedings of the eLex 2023 conference: [Brno], 27–29 June 2023. Brno: Lexical Computing CZ, 2023. 449–465. COBISS.SI-ID – 158849795
[2] KERN, Boris. Besednodružinski slovar slovenskega jezika kot tujega jezika. V: Slavistična prepletanja 4 [Elektronski vir]. Gjoko NIKOLOVSKI (ur.), Natalija ULČNIK (ur.). Maribor: Univerza v Mariboru, Univerzitetna založba, 2022. 153–168. COBISS.SI-ID – 65082627
[3] KERN, Boris. Feminativi v izsamostalniških besedotvornih nizih. V: JOŽEF-BEG, Jožica (ur.), HOČEVAR, Mia (ur.), KOČNIK, Neža (ur.). Naslavljanje raznolikosti v jeziku in književnosti: [Slovenski slavistični kongres, Maribor, 28.–30. september 2023]. Ljubljana: Zveza društev Slavistično društvo Slovenije, 2023. 197–205. COBISS.SI-ID – 167240707
[4] KERN, Boris. Considering word formation in compiling dictionaries. V: ŠTRKALJ DESPOT, Kristina (ur.). Lexicography and Semantics: proceedings of the XXI EURALEX International Congress, 8–12 October 2024, Cavtat, Croatia. Zagreb: Institut za hrvatski jezik, 2024. 438–448. COBISS.SI-ID – 223546883
[5] KERN, Boris. Priponski nizi izsamostalniških stopenjskih tvorjenk z izhodiščnim obrazilom -iti v slovenščini. Južnoslovenski filolog. 2024, knj. 80, sv. 2. 127–139. DOI: 10.2298/JFI2402127K. COBISS.SI-ID – 224795907
[6] KERN, Boris, LEDINEK, Nina. Izprislovne stopenjske tvorjenke. V: MARUŠIČ, Franc (ur.), et al. Škrabčevi dnevi 13: zbornik prispevkov s simpozija 2023. Nova Gorica: Založba Univerze, 2025. 16–28. COBISS.SI-ID – 178755587
[7] KERN, Boris, UHLIK, Mladen, GABROVŠEK, Dejan. 17. mednarodni slavistični kongres v Parizu. Slavistična revija. 2025, letn. 73, št. 4. 632–638. COBISS.SI-ID – 264217091
[8] KERN, Boris, STRAMLJIČ BREZNIK, Irena. Kombinatorika izhodiščnega obrazila -ati v slovenščini. Slavistična revija. 2025, letn. 73, št. 2. 329–346. DOI: 10.57589/srl.v73i2.4253. COBISS.SI-ID – 242271747
[9] KERN, Boris. Izsamostalniški besedotvorni nizi v slovenščini z vidika morfotaktike. V: KERN, Boris (ur.). Stopenjsko besedotvorje v slovanskih jezikih. Ljubljana: Založba ZRC, ZRC SAZU, 2026. DOI: 10.3986/9789610510932.
[10] KERN, Boris. Slovarček terminov s področja stopenjskega besedotvorja v slovanskih jezikih. V: KERN, Boris (ur.). Stopenjsko besedotvorje v slovanskih jezikih. Ljubljana: Založba ZRC, ZRC SAZU, 2026. DOI: 10.3986/9789610510932.
[11] KERN, Boris, DIVJAK RACE, Duša, OMAN, Jera, ŽIBRED, Maruša (ur.). Stopenjsko besedotvorje: 23. mednarodna znanstvena konferenca Komisije za besedotvorje pri Mednarodnem slavističnem komiteju: zbornik povzetkov: Ljubljana, 17.–20. 9. 2024 = Multistage word formation: 23rd International Conference of the Commission on Word Formation of the International Committee of Slavists: book of abstracts. Ljubljana: Založba ZRC, 2024. COBISS.SI-ID – 204688899
[12] KULOVEC, Marjetka, JERKO, Boštjan, KERN, Boris. Stopenjske tvorjenke v slovenščini in sestavljene kretnje v slovenskem znakovnem jeziku. V: KERN, Boris (ur.). Stopenjsko besedotvorje v slovanskih jezikih. Ljubljana: Založba ZRC, ZRC SAZU, 2026. DOI: 10.3986/9789610510932.
[13] POLLAK, Senja, VORŠIČ, Ines, KERN, Boris, ULČAR, Matej. Novel Slovenian COVID-19 vocabulary from the perspective of naming possibilities and word formation. V: MEDVEĎ, Marek (ur.), et al. eLex 2023: electronic lexicography in the 21st century (eLex 2023): proceedings of the eLex 2023 conference: [Brno], 27–29 June 2023. Brno: Lexical Computing CZ, 2023. 419–438.
[14] PRANJIĆ, Marko, POLLAK, Senja. Advancements in Automatic Morphological Segmentation for Slovenian. V: KERN, Boris (ur.). Stopenjsko besedotvorje v slovanskih jezikih. Ljubljana: Založba ZRC, ZRC SAZU, 2026. DOI: 10.3986/9789610510932.
[15] STRAMLJIČ BREZNIK, Irena. Izmedmetna tvorba glagolov – tvorbene značilnosti skupine s pomenom ‘oglašati se’ in ‘govoriti’. V: ARIZANKOVSKA, Lidija (ur.). Tendencii vo zboroobrazuvanjeto na glagolite vo slovenskite jazici = Word-formation tendencies of verbs in Slavic languages = Tendencii slovoobrazovanija glagolov v slavjanskih jazykah: 29 maj – 3 juni 2023 g., Kongresen centar na Univerzitetot „Sv. Kiril i Metodij“ – Skopje vo Ohrid: [zbornik na trudovi]. Skopje: Filološki fakultet "Blaže Koneski", 2024. 327–343. COBISS.SI-ID – 218801155
[16] STRAMLJIČ BREZNIK, Irena, LEDINEK, Nina. Kvantitativni podatki o besedotvornih modelih in priponskih nizih izmedmetnih tvorjenk v Besednodružinskem slovarju slovenskega jezika za iztočnice na b. Slovenski jezik – Slovene linguistic studies. 2024, 16. 59–85. DOI: 10.3986/16.1.03. COBISS.SI-ID – 220034819
[17] STRAMLJIČ BREZNIK, Irena. Značilnosti izmedmetih priponskih nizov v Besednodružinskem slovarju slovenskega jezika za iztočnice na b. Slavia Centralis. 2024, letn. 17, št. 1. 1–17. DOI: 10.18690/scn.17.1.1-17.2024. COBISS.SI-ID – 200354051
[18] STRAMLJIČ BREZNIK, Irena. Ustreznost strojno izluščenih štiripriponskih izpridevniških besedotvornih nizov iz učne množice BSSJ. V: DRAGIĆEVIĆ, Rajna (ur.). Derivaciona gnezda u slovenskim jezicima: Sistemnost tvorbene produktivnosti: tematski blok: XVII međunarodni kongres slavista (Pariz, 25–30. VIII 2025) = Derivational nests in Slavic languages: Systematicity of word formation productivity: thematic block: XVII International Congress of Slavists (Paris, 25–30. August 2025). Beograd: Savez slavističkih društava Srbije, 2025. 163–180. DOI: 10.18485/ssds_mks17_dg.2025.ch8. COBISS.SI-ID – 253354755
[19] STRAMLJIČ BREZNIK, Irena. Primerjava najdaljših tvorbenih nizov za izbrana obrazila izpridevniških tvorjenk z gradivom v Pleteršnikovem slovarju. V: JESENŠEK, Marko (ur.). Imenitnost slovenščine sto let po Pleteršniku: zbornik povzetkov: Pišece, 22. 9. 2025, Pleteršnikova domačija. Maribor: Slavistično društvo, 2025. F. [14]. COBISS.SI-ID – 250472963
[20] STRAMLJIČ BREZNIK, Irena. Značilnosti prvostopenjskih izpridevniških samostalniških izpeljank in tvorbena kombinatorika obrazil -ica ter -ec v slovenščini. V: KERN, Boris (ur.). Stopenjsko besedotvorje v slovanskih jezikih. Ljubljana: Založba ZRC, ZRC SAZU, 2026. DOI: 10.3986/9789610510932.
[21] ŽELE, Andreja, LEDINEK, Nina, VORŠIČ, Ines. Med besedotvorjem in skladnjo: kolokabilnost slovenskih glagolskih zvez tipa GlagPrisl in njihova sistemska pretvorba v zveze tipa PridSam. V: KERN, Boris (ur.). Stopenjsko besedotvorje v slovanskih jezikih. Ljubljana: Založba ZRC, ZRC SAZU, 2026. DOI: 10.3986/9789610510932.
[22] KERN, Boris (ur.). Stopenjsko besedotvorje v slovanskih jezikih. Ljubljana: Založba ZRC, ZRC SAZU, 2026. DOI: 10.3986/9789610510932. COBISS.SI-ID - 269400835