Množična raziskava razširjenosti slovenskih besed
Vodja projekta na ZRC
Dr. Andrej Perdih-
Naslov v izvirniku
Množična raziskava razširjenosti slovenskih besed
Sodelavci
Dr. Andrej Perdih, Dr. Matic Pavlič, Dr. Janoš Ježovnik, Dr. Artur Stepanov, Dr. Nataša Gliha Komac, Dr. Dejan Gabrovšek, Tina Pogorelčnik, Klara Trpkova Bergant-
ID oznaka
J6-50199
-
Trajanje projekta
1. oktober 2023–30. september 2026 -
Vodilni partner
-
Finančni vir
Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Partnerji
Pedagoška fakulteta Univerze v Ljubljani, Univerza v Novi Gorici, Univerzitetni klinični center Ljubljana
Cilj projekta je raziskati razširjenost besed v slovenščini s pomočjo množične raziskave presojanja besedišča in povezovanja besede s sliko. S projektom bomo v slovenščini prvič doslej pridobili podatke o ključni subjektivni psiholingvistični normi, in sicer o razširjenosti besed, ki predstavlja delež govorcev, ki poznajo določeno besedo. Pri 4.000–8.000 govorcih slovenščine kot prvega jezika bomo pridobili oceno o razširjenosti za 10.000–20.000 slovenskih besed. Rezultati bodo podani v obliki standardiziranih, prosto dostopnih in zanesljivo analiziranih norm razširjenosti besed.
Na podlagi razširjenosti besed lahko raziskovalci skrbneje izbirajo besedne stimule glede na namen raziskav. Prvič, z razvrstitvijo besed glede na razširjenost (v povezavi s pogostostjo besed) je mogoče določiti razpon težavnosti besed, ki se lahko uporablja pri izbiri stimulov za psiholingvistične študije z več dejavniki in za klinično uporabo diagnostičnih testov (npr. receptivni testi besedišča). Razširjenost besed se lahko uporablja tudi za napovedovanje razlik pri učinkovitosti procesiranja besed. Drugič, razširjenost besed se lahko uporablja kot ocena težavnosti besed v testih besedišča. Podatki o razširjenosti besed bodo relevantni tudi za razvoj algoritmov za ocenjevanje težavnosti besedil. Tretjič, razširjenost besed je uporaben podatek pri izbiri besedišča za pripravo gradiva za poučevanje in učenje jezika kot prvega in drugega jezika. Nenazadnje pa bodo podatki o razširjenosti besed pomembno pripomogli k razvoju slovaropisja. Pri nizkofrekventnih besedah bo frekvenčno merilo zelo koristno dopolniti z razširjenostjo besed in s tem izboljšati izbor besed v slovarskem geslovniku.
Da bi dosegli cilj, bomo najprej vzpostavili eksperimentalni protokol za množično raziskavo. To pomeni izdelavo naborov jezikovnih podatkov, kot sta seznam besed in seznam nebesed, seznam parov slovenskih besed in slik ter opredelitev metapodatkov za demografski vprašalnik. Nato se bomo osredotočili na promocijo vprašalnika, s čimer bomo pridobili odgovore velikega števila odraslih govorcev slovenščine kot prvega jezika. Vprašalnik bo odprt eno leto. Z analizo pridobljenih odgovorov bomo skušali odgovoriti na vprašanja, kako starost, spol, kraj odraščanja, izobrazba, število govorjenih jezikov in poklic anketirancev vplivajo na razširjenost besed. Pridobili bomo tudi podatke o tem, katere besede slovenski govorci bolje poznajo in kakšna je korelacija med korpusno frekvenco, dolžino besed in drugimi spremenljivkami glede na razširjenost besed. Rezultate analize bomo neposredno uporabili pri razvoju metodologije za vključevanje podatkov o razširjenosti besed v proces izdelave slovarjev.
Za obvladovanje nepredvidenih izzivov, ki se lahko pojavijo v času izvajanja projekta, smo pridobili neodvisnega opazovalca in svetovalca z bogatimi izkušnjami, ki jih je pridobil pri nedavnem raziskovalnem projektu o razširjenosti besed v katalonščini.
FAZA A1 – PRIPRAVA SEZNAMA BESED
- Določitev števila besed za testiranje
- Priprava seznama besed iz Slovarja slovenskega knjižnega jezika, druga izdaja (2014)
- Priprava frekvenčnega seznama iz korpusa Gigafida 2.0
- Določitev frekvenčnega praga
- Odstranitev besed s pogostostjo pod/nad pragom
- Izbor besed za testiranje
FAZA A2 – PRIPRAVA SEZNAMA PSEVDO BESED/NEBESED
- Opredelitev značilnosti psevdobesed in nebesed
- Določitev števila psevdobesed in nebesed za testiranje
- Določitev deležev psevdobesed/nebesed glede na fonološko strukturo
- Priprava seznamov kandidatov za psevdobesede/nebesede
- Izločitev psevdobesed/nebesed, ki so preveč podobne obstoječim slovenskim besedam ali njihovim morfološkim oblikam
- Izločitev psevdobesed/nebesed, ki so obstoječe angleške besede
FAZA A3 – OPREDELITEV SOCIODEMOGRAFSKIH METAPODATKOV UPORABNIKOV ZA VPRAŠALNIK
- Opredelitev sociodemografskih podatkov
- Priprava vprašalnika
FAZA A4 – PRIPRAVA PROGRAMSKE OPREME ZA VPRAŠALNIK
- Uvoz seznama besed in seznama psevdo/nebesed
- Prilagoditev polj za sociodemografske metapodatke
- Prilagoditev načina izbora besed za anketirance
- Implementacija hiperpovezav do Slovarja slovenskega knjižnega jezika, druga izdaja, na slovarskem portalu Fran
- Priprava in uvoz slovenskega besedila za spletno stran
- Namestitev programsko opreme na spletni strežnik
- Preizkus vprašalnika, pridobivanje povratnih informacij
- Implementacija sprememb na podlagi povratnih informacij
FAZA A5 – PRIPRAVA STRATEGIJE ZA PROMOCIJO VPRAŠALNIKA
- Opredelitev želenih ciljnih skupin
- Priprava podrobne promocijske strategije
- Priprava gradiva za promocijo vprašalnika (elektronska pošta, besedila za družbene medije itd.)
FAZA A6 – IZVEDBA VPRAŠALNIKA
- Zagon vprašalnika
- Promocijske dejavnosti
FAZA A7 – RAZVOJ KONCEPTA UPORABE PODATKOV O RAZŠIRJENOSTI BESED V LEKSIKOGRAFIJI
- Vzpostavitev protokola za izvajanje podatkov o razširjenosti besed pri pripravi seznamov iztočnic v slovarskih projektih
- Opredelitev, kako podatki o razširjenosti besed vplivajo na leksikografske odločitve pri določenih tipih iztočnic
- Opredelitev, kako ugotovljena razširjenost besed vpliva na njihovo prednost pri uslovarjanju
FAZA A8 – ANALIZA PODATKOV
- Analiza ustreznosti odgovorov in odzivnega časa glede na demografske podatke (starost, materni jezik itd.)
- Priprava R skripte za statistične analize
- Modeliranje rezultatov z regresijskimi analizami
- Interpretacija rezultatov in korelacije med psiholingvističnimi spremenljivkami
FAZA A9 – IMPLEMENTACIJA PODATKOV O RAZŠIRJENOSTI BESED V PROCES SESTAVLJANJA SLOVARJEV
- Uvoz podatkov o razširjenosti besed v slovarsko podatkovno zbirko
- Izboljšanje postopka odločanja o vključitvi/izključitvi mejnih lem na podlagi podatkov o razširjenosti besed
- Prilagoditev vrstnega reda izdelave slovarskih sestavkov na podlagi podatkov o razširjenosti besed
FAZA A10, B5 – OBJAVA PODATKOV
- Izvoz neobdelanih podatkov (odgovore in seje) in statistično obdelanih podatkov v besedilno datoteko s tabulatorskim ločilom
- Dodajanje ustreznih metapodatkovnih opisov
- Objava podatkov pod odprto licenco v repozitoriju; npr. repozitorij Clarin.SI
FAZA A11, B6 – PREGLED NAD PROJEKTOM IN DISEMINACIJA REZULTATOV
- Sodelovanje vodje projekta in svetovalca pri projektu
- Diseminacija rezultatov z objavljanjem raziskovalnih člankov in predstavitvami na konferencah
FAZA B1 – PRIPRAVA NABORA PODATKOV O BESEDAH IN SLIKAH
- Določitev števila besed (in mašilnih besed) za testiranje
- Pridobitev parov slika - beseda (ciljna oz. mašilna) iz podatkovne zbirke Franček
- Izbor parov besed in slik za testiranje
FAZA B2 – PRIPRAVA PROGRAMSKE OPREME VPRAŠALNIKA ZA PARE BESED IN SLIK
- Uvoz podatkov o parih beseda - slika
- Prilagoditev polj za sociodemografske metapodatke
- Prilagoditev načina izbora besed za anketirance
- Implementacija hiperpovezav do Slovarja slovenskega knjižnega jezika, druga izdaja, na slovarskem portalu Fran
- Priprava in uvoz slovenskega besedila za spletno stran
- Namestitev programske opreme na spletni strežnik
- Preizkus vprašalnika, pridobivanje povratnih informacij
- Implementacija sprememb na podlagi povratnih informacij
FAZA B3 – IZVEDBA VPRAŠALNIKA O BESEDAH IN SLIKAH NA PARIH BESED IN SLIK
- Zagon vprašalnika
- Promocijske dejavnosti
FAZA B4 – ANALIZA PODATKOV
- Analiza ustreznosti odgovorov in odzivnega časa glede na demografske podatke (starost, materni jezik itd.)
- Priprava R skripte za statistične analize
- Modeliranje rezultatov z regresijskimi analizami
- Interpretacija rezultatov in korelacije med psiholingvističnimi spremenljivkami
FAZA B5 – prim. A10, B5
FAZA B6 – prim. A11, B6
Spletna aplikacija
Besedomat. Spletna aplikacija, preizkus besedišča.
Objave v medijih
RTV Slovenija. Jezikovni pogovori. https://365.rtvslo.si/podkast/jezikovni-pogovori/175087721
Delo. Beseda tedna. Izbor. https://www.delo.si/magazin/zanimivosti/izbor
RTV Slovenija. KiKs. Besedomat: bi prepoznali izmišljene besede? https://365.rtvslo.si/podkast/kiks/175099499
RTV Slovenija. Jezikanje. Veste, kaj pomenijo besede eksaltiran, tulpika, lakoničen in bosjak? https://365.rtvslo.si/podkast/jezikanje/175102035
Delo. Besedna igra, ki bo koristila tudi logopedom. https://www.delo.si/magazin/zanimivosti/uporabniki-se-igrajo-jezikoslovci-zbirajo-podatke-ki-bodo-koristili-logopedom
Predavanja in predstavitve
Perdih, Andrej, Pavlič, Matic, Pogorelčnik, Tina. Koliko besed poznaš? : Besedomat: množična raziskava razširjenosti slovenskih besed : predavanje, Lingvistični krožek, Filozofska fakulteta v Ljubljani, 11. nov. 2024.
Perdih, Andrej, Pogorelčnik, Tina, Ježovnik, Janoš. Koliko besed poznamo in katere so skupne vsem govorcem slovenščine? : pogovorni večer, Knjigarna kavarna Maks, Nova Gorica, 30. jan. 2025.