Množična raziskava razširjenosti slovenskih besed

Vodja projekta na ZRC
Dr. Andrej Perdih
Naslov v izvirniku

Množična raziskava razširjenosti slovenskih besed
Sodelavci
Dr. Andrej Perdih, Dr. Matic Pavlič, Dr. Janoš Ježovnik, Dr. Artur Stepanov, Doc. dr. Nataša Gliha Komac, Dr. Dejan Gabrovšek, Tina Pogorelčnik, Klara Trpkova Bergant , Dr. Miha Sušnik
Trajanje projekta
1. oktober 2023–30. september 2026
Povezava na SICRIS
20865
Vodilni partner

Inštitut za slovenski jezik Frana Ramovša ZRC SAZU
Finančni vir
Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Partnerji
Pedagoška fakulteta Univerze v Ljubljani, Univerza v Novi Gorici, Univerzitetni klinični center Ljubljana

Opis

Cilj projekta je raziskati razširjenost besed v slovenščini s pomočjo množične raziskave presojanja besedišča in povezovanja besede s sliko. S projektom bomo v slovenščini prvič doslej pridobili podatke o ključni subjektivni psiholingvistični normi, in sicer o razširjenosti besed, ki predstavlja delež govorcev, ki poznajo določeno besedo. Pri 4.000–8.000 govorcih slovenščine kot prvega jezika bomo pridobili oceno o razširjenosti za 10.000–20.000 slovenskih besed. Rezultati bodo podani v obliki standardiziranih, prosto dostopnih in zanesljivo analiziranih norm razširjenosti besed.

Na podlagi razširjenosti besed lahko raziskovalci skrbneje izbirajo besedne stimule glede na namen raziskav. Prvič, z razvrstitvijo besed glede na razširjenost (v povezavi s pogostostjo besed) je mogoče določiti razpon težavnosti besed, ki se lahko uporablja pri izbiri stimulov za psiholingvistične študije z več dejavniki in za klinično uporabo diagnostičnih testov (npr. receptivni testi besedišča). Razširjenost besed se lahko uporablja tudi za napovedovanje razlik pri učinkovitosti procesiranja besed. Drugič, razširjenost besed se lahko uporablja kot ocena težavnosti besed v testih besedišča. Podatki o razširjenosti besed bodo relevantni tudi za razvoj algoritmov za ocenjevanje težavnosti besedil. Tretjič, razširjenost besed je uporaben podatek pri izbiri besedišča za pripravo gradiva za poučevanje in učenje jezika kot prvega in drugega jezika. Nenazadnje pa bodo podatki o razširjenosti besed pomembno pripomogli k razvoju slovaropisja. Pri nizkofrekventnih besedah bo frekvenčno merilo zelo koristno dopolniti z razširjenostjo besed in s tem izboljšati izbor besed v slovarskem geslovniku.

Da bi dosegli cilj, bomo najprej vzpostavili eksperimentalni protokol za množično raziskavo. To pomeni izdelavo naborov jezikovnih podatkov, kot sta seznam besed in seznam nebesed, seznam parov slovenskih besed in slik ter opredelitev metapodatkov za demografski vprašalnik. Nato se bomo osredotočili na promocijo vprašalnika, s čimer bomo pridobili odgovore velikega števila odraslih govorcev slovenščine kot prvega jezika. Vprašalnik bo odprt eno leto. Z analizo pridobljenih odgovorov bomo skušali odgovoriti na vprašanja, kako starost, spol, kraj odraščanja, izobrazba, število govorjenih jezikov in poklic anketirancev vplivajo na razširjenost besed. Pridobili bomo tudi podatke o tem, katere besede slovenski govorci bolje poznajo in kakšna je korelacija med korpusno frekvenco, dolžino besed in drugimi spremenljivkami glede na razširjenost besed. Rezultate analize bomo neposredno uporabili pri razvoju metodologije za vključevanje podatkov o razširjenosti besed v proces izdelave slovarjev.

Za obvladovanje nepredvidenih izzivov, ki se lahko pojavijo v času izvajanja projekta, smo pridobili neodvisnega opazovalca in svetovalca z bogatimi izkušnjami, ki jih je pridobil pri nedavnem raziskovalnem projektu o razširjenosti besed v katalonščini.

Faze projekta

FAZA A1 – PRIPRAVA SEZNAMA BESED

Določitev števila besed za testiranje
Priprava seznama besed iz Slovarja slovenskega knjižnega jezika, druga izdaja (2014)
Priprava frekvenčnega seznama iz korpusa Gigafida 2.0
Določitev frekvenčnega praga
Odstranitev besed s pogostostjo pod/nad pragom
Izbor besed za testiranje

FAZA A2 – PRIPRAVA SEZNAMA PSEVDO BESED/NEBESED

Opredelitev značilnosti psevdobesed in nebesed
Določitev števila psevdobesed in nebesed za testiranje
Določitev deležev psevdobesed/nebesed glede na fonološko strukturo
Priprava seznamov kandidatov za psevdobesede/nebesede
Izločitev psevdobesed/nebesed, ki so preveč podobne obstoječim slovenskim besedam ali njihovim morfološkim oblikam
Izločitev psevdobesed/nebesed, ki so obstoječe angleške besede

FAZA A3 – OPREDELITEV SOCIODEMOGRAFSKIH METAPODATKOV UPORABNIKOV ZA VPRAŠALNIK

Opredelitev sociodemografskih podatkov
Priprava vprašalnika

FAZA A4 – PRIPRAVA PROGRAMSKE OPREME ZA VPRAŠALNIK

Uvoz seznama besed in seznama psevdo/nebesed
Prilagoditev polj za sociodemografske metapodatke
Prilagoditev načina izbora besed za anketirance
Implementacija hiperpovezav do Slovarja slovenskega knjižnega jezika, druga izdaja, na slovarskem portalu Fran
Priprava in uvoz slovenskega besedila za spletno stran
Namestitev programsko opreme na spletni strežnik
Preizkus vprašalnika, pridobivanje povratnih informacij
Implementacija sprememb na podlagi povratnih informacij

FAZA A5 – PRIPRAVA STRATEGIJE ZA PROMOCIJO VPRAŠALNIKA

Opredelitev želenih ciljnih skupin
Priprava podrobne promocijske strategije
Priprava gradiva za promocijo vprašalnika (elektronska pošta, besedila za družbene medije itd.)

FAZA A6 – IZVEDBA VPRAŠALNIKA

Zagon vprašalnika
Promocijske dejavnosti

FAZA A7 – RAZVOJ KONCEPTA UPORABE PODATKOV O RAZŠIRJENOSTI BESED V LEKSIKOGRAFIJI

Vzpostavitev protokola za izvajanje podatkov o razširjenosti besed pri pripravi seznamov iztočnic v slovarskih projektih
Opredelitev, kako podatki o razširjenosti besed vplivajo na leksikografske odločitve pri določenih tipih iztočnic
Opredelitev, kako ugotovljena razširjenost besed vpliva na njihovo prednost pri uslovarjanju

FAZA A8 – ANALIZA PODATKOV

Analiza ustreznosti odgovorov in odzivnega časa glede na demografske podatke (starost, materni jezik itd.)
Priprava R skripte za statistične analize
Modeliranje rezultatov z regresijskimi analizami
Interpretacija rezultatov in korelacije med psiholingvističnimi spremenljivkami

FAZA A9 – IMPLEMENTACIJA PODATKOV O RAZŠIRJENOSTI BESED V PROCES SESTAVLJANJA SLOVARJEV

Uvoz podatkov o razširjenosti besed v slovarsko podatkovno zbirko
Izboljšanje postopka odločanja o vključitvi/izključitvi mejnih lem na podlagi podatkov o razširjenosti besed
Prilagoditev vrstnega reda izdelave slovarskih sestavkov na podlagi podatkov o razširjenosti besed

FAZA A10, B5 – OBJAVA PODATKOV

Izvoz neobdelanih podatkov (odgovore in seje) in statistično obdelanih podatkov v besedilno datoteko s tabulatorskim ločilom
Dodajanje ustreznih metapodatkovnih opisov
Objava podatkov pod odprto licenco v repozitoriju; npr. repozitorij Clarin.SI

FAZA A11, B6 – PREGLED NAD PROJEKTOM IN DISEMINACIJA REZULTATOV

Sodelovanje vodje projekta in svetovalca pri projektu
Diseminacija rezultatov z objavljanjem raziskovalnih člankov in predstavitvami na konferencah

FAZA B1 – PRIPRAVA NABORA PODATKOV O BESEDAH IN SLIKAH

Določitev števila besed (in mašilnih besed) za testiranje
Pridobitev parov slika - beseda (ciljna oz. mašilna) iz podatkovne zbirke Franček
Izbor parov besed in slik za testiranje

FAZA B2 – PRIPRAVA PROGRAMSKE OPREME VPRAŠALNIKA ZA PARE BESED IN SLIK

Uvoz podatkov o parih beseda - slika
Prilagoditev polj za sociodemografske metapodatke
Prilagoditev načina izbora besed za anketirance
Implementacija hiperpovezav do Slovarja slovenskega knjižnega jezika, druga izdaja, na slovarskem portalu Fran
Priprava in uvoz slovenskega besedila za spletno stran
Namestitev programske opreme na spletni strežnik
Preizkus vprašalnika, pridobivanje povratnih informacij
Implementacija sprememb na podlagi povratnih informacij

FAZA B3 – IZVEDBA VPRAŠALNIKA O BESEDAH IN SLIKAH NA PARIH BESED IN SLIK

Zagon vprašalnika
Promocijske dejavnosti

FAZA B4 – ANALIZA PODATKOV

Analiza ustreznosti odgovorov in odzivnega časa glede na demografske podatke (starost, materni jezik itd.)
Priprava R skripte za statistične analize
Modeliranje rezultatov z regresijskimi analizami
Interpretacija rezultatov in korelacije med psiholingvističnimi spremenljivkami

FAZA B5 – prim. A10, B5

FAZA B6 – prim. A11, B6

Rezultati

Spletna aplikacija

Besedomat - logotip

Besedomat. Spletna aplikacija, preizkus besedišča.

Znanstveni dosežki

PERDIH, Andrej, GABROVŠEK, Dejan, PAVLIČ, Matic. Izdelava seznama besed za množično raziskavo razširjenosti slovenskih besed = Creating the word list for the Slovenian word-prevalence megastudy. Slavistična revija : časopis za jezikoslovje in literarne vede. [Tiskana izd.]. 2025, letn. 73, št. 1, str. 121-137, tabele. ISSN 0350-6894. https://srl.si/ojs/srl/article/view/4231, DOI: 10.57589/srl.v73i1.4231. [COBISS.SI-ID 228788483]

PERDIH, Andrej, GABROVŠEK, Dejan, JEŽOVNIK, Janoš. Image-to-sense alignment using AI tools. V: KOSEM, Iztok (ur.), et al. eLex 2025 : electronic lexicography in the 21st century (eLex 2025) : intelligent lexicography : proceedings of the eLex 2025 Conference : 18-20 November 2025, Bled, Slovenia. Brno: Lexical Computing CZ, 2025. Str. 852-865, tabele, fotogr. Electronic lexicography in the 21st century. Proceedings of eLex ... conference. ISSN 2533-5626. https://elex.link/elex2025/wp-content/uploads/eLex2025-49-Perdih_etal.pdf. [COBISS.SI-ID 261280259]

PAVLIČ, Matic, PERDIH, Andrej. Razširjenost kot nov kriterij za vključitev besede v jezikovne priročnike. V: BIZJAK KONČAR, Aleksandra (ur.), MICHELIZZA, Mija (ur.). Slovansko slovaropisje = Slavic lexicography : mednarodni znanstveni simpozij ob mednarodnem dnevu slovarjev MDS7 = International Scientific Symposium MDS7 (International Dictionary Day) : 13. 10. 2025, platforma Zoom : Mednarodni dan slovarjev, 13.-16. oktober 2025 : zbornik povzetkov = book of abstracts. 1. e-izd. Ljubljana: Založba ZRC, 2025. Str. 12-13. ISBN 978-961-05-1054-3. https://isjfr.zrc-sazu.si/sites/default/files/MDS25_simpozij_povzetki_2.pdf. [COBISS.SI-ID 255538947]

Objave v medijih

RTV Slovenija. Jezikovni pogovori. https://365.rtvslo.si/podkast/jezikovni-pogovori/175087721

Delo. Beseda tedna. Izbor. https://www.delo.si/magazin/zanimivosti/izbor

RTV Slovenija. KiKs. Besedomat: bi prepoznali izmišljene besede? https://365.rtvslo.si/podkast/kiks/175099499

RTV Slovenija. Jezikanje. Veste, kaj pomenijo besede eksaltiran, tulpika, lakoničen in bosjak? https://365.rtvslo.si/podkast/jezikanje/175102035

Delo. Besedna igra, ki bo koristila tudi logopedom. https://www.delo.si/magazin/zanimivosti/uporabniki-se-igrajo-jezikoslovci-zbirajo-podatke-ki-bodo-koristili-logopedom

24ur. Preverite, kako bogat je vaš besedni zaklad. https://www.24ur.com/novice/znanost-in-tehnologija/besedomat.html

N1. Je “cizeliranje” slovenska beseda? Preverite svoj besedni zaklad z Besedomatom. https://n1info.si/novice/slovenija/je-cizeliranje-slovenska-beseda-preverite-svoj-besedni-zaklad-z-besedomatom/

VTV Studio. Dobro jutro. https://www.facebook.com/vtvstudioslo/videos/992018696291162

MMC RTVSLO. Najhitrejša slovenska beseda je kruh. Kaj pravzaprav to pomeni in koliko besed poznamo?. https://www.rtvslo.si/kultura/jezik/najhitrejsa-slovenska-beseda-je-kruh-kaj-pravzaprav-to-pomeni-in-koliko-besed-poznamo/757433

Predavanja in predstavitve

Perdih, Andrej, Pavlič, Matic, Pogorelčnik, Tina. Koliko besed poznaš? : Besedomat: množična raziskava razširjenosti slovenskih besed : predavanje, Lingvistični krožek, Filozofska fakulteta v Ljubljani, 11. nov. 2024.

Perdih, Andrej, Pogorelčnik, Tina, Ježovnik, Janoš. Koliko besed poznamo in katere so skupne vsem govorcem slovenščine? : pogovorni večer, Knjigarna kavarna Maks, Nova Gorica, 30. jan. 2025.

Perdih, Andrej. Test znalosti slov u mluvčích slovinštiny: aktuální stav a očekáváné výsledky : predavanje. Slovanský ústav. Praga, Češka. 15. apr. 2025.

Pavlič, Matic, Perdih, Andrej. Razširjenost kot nov kriterij za vključitev besede v jezikovne priročnike : prispevek na simpoziju Mednarodni dan slovarjev 7: Slovansko slovaropisje. Ljubljana. 13. okt. 2025.

Pavlič, Matic. Skupaj do odkritij - Besedomat. https://www.youtube.com/watch?v=Yfde28MYTKs

Raziskovalni projekt