Skip to main content

Množična raziskava razširjenosti slovenskih besed

Opis

Besedomat logo

Cilj projekta je raziskati razširjenost besed v slovenščini s pomočjo množične raziskave presojanja besedišča in povezovanja besede s sliko. S projektom bomo v slovenščini prvič doslej pridobili podatke o ključni subjektivni psiholingvistični normi, in sicer o razširjenosti besed, ki predstavlja delež govorcev, ki poznajo določeno besedo. Pri 4.000–8.000 govorcih slovenščine kot prvega jezika bomo pridobili oceno o razširjenosti za 10.000–20.000 slovenskih besed. Rezultati bodo podani v obliki standardiziranih, prosto dostopnih in zanesljivo analiziranih norm razširjenosti besed.

Na podlagi razširjenosti besed lahko raziskovalci skrbneje izbirajo besedne stimule glede na namen raziskav. Prvič, z razvrstitvijo besed glede na razširjenost (v povezavi s pogostostjo besed) je mogoče določiti razpon težavnosti besed, ki se lahko uporablja pri izbiri stimulov za psiholingvistične študije z več dejavniki in za klinično uporabo diagnostičnih testov (npr. receptivni testi besedišča). Razširjenost besed se lahko uporablja tudi za napovedovanje razlik pri učinkovitosti procesiranja besed. Drugič, razširjenost besed se lahko uporablja kot ocena težavnosti besed v testih besedišča. Podatki o razširjenosti besed bodo relevantni tudi za razvoj algoritmov za ocenjevanje težavnosti besedil. Tretjič, razširjenost besed je uporaben podatek pri izbiri besedišča za pripravo gradiva za poučevanje in učenje jezika kot prvega in drugega jezika. Nenazadnje pa bodo podatki o razširjenosti besed pomembno pripomogli k razvoju slovaropisja. Pri nizkofrekventnih besedah bo frekvenčno merilo zelo koristno dopolniti z razširjenostjo besed in s tem izboljšati izbor besed v slovarskem geslovniku.

Da bi dosegli cilj, bomo najprej vzpostavili eksperimentalni protokol za množično raziskavo. To pomeni izdelavo naborov jezikovnih podatkov, kot sta seznam besed in seznam nebesed, seznam parov slovenskih besed in slik ter opredelitev metapodatkov za demografski vprašalnik. Nato se bomo osredotočili na promocijo vprašalnika, s čimer bomo pridobili odgovore velikega števila odraslih govorcev slovenščine kot prvega jezika. Vprašalnik bo odprt eno leto. Z analizo pridobljenih odgovorov bomo skušali odgovoriti na vprašanja, kako starost, spol, kraj odraščanja, izobrazba, število govorjenih jezikov in poklic anketirancev vplivajo na razširjenost besed. Pridobili bomo tudi podatke o tem, katere besede slovenski govorci bolje poznajo in kakšna je korelacija med korpusno frekvenco, dolžino besed in drugimi spremenljivkami glede na razširjenost besed. Rezultate analize bomo neposredno uporabili pri razvoju metodologije za vključevanje podatkov o razširjenosti besed v proces izdelave slovarjev.

Za obvladovanje nepredvidenih izzivov, ki se lahko pojavijo v času izvajanja projekta, smo pridobili neodvisnega opazovalca in svetovalca z bogatimi izkušnjami, ki jih je pridobil pri nedavnem raziskovalnem projektu o razširjenosti besed v katalonščini.


Faze projekta

FAZA A1 – PRIPRAVA SEZNAMA BESED

  • Določitev števila besed za testiranje
  • Priprava seznama besed iz Slovarja slovenskega knjižnega jezika, druga izdaja (2014)
  • Priprava frekvenčnega seznama iz korpusa Gigafida 2.0
  • Določitev frekvenčnega praga
  • Odstranitev besed s pogostostjo pod/nad pragom
  • Izbor besed za testiranje

FAZA A2 – PRIPRAVA SEZNAMA PSEVDO BESED/NEBESED

  • Opredelitev značilnosti psevdobesed in nebesed
  • Določitev števila psevdobesed in nebesed za testiranje
  • Določitev deležev psevdobesed/nebesed glede na fonološko strukturo
  • Priprava seznamov kandidatov za psevdobesede/nebesede
  • Izločitev psevdobesed/nebesed, ki so preveč podobne obstoječim slovenskim besedam ali njihovim morfološkim oblikam
  • Izločitev psevdobesed/nebesed, ki so obstoječe angleške besede

FAZA A3 – OPREDELITEV SOCIODEMOGRAFSKIH METAPODATKOV UPORABNIKOV ZA VPRAŠALNIK

  • Opredelitev sociodemografskih podatkov
  • Priprava vprašalnika

FAZA A4 – PRIPRAVA PROGRAMSKE OPREME ZA VPRAŠALNIK

  • Uvoz seznama besed in seznama psevdo/nebesed
  • Prilagoditev polj za sociodemografske metapodatke
  • Prilagoditev načina izbora besed za anketirance
  • Implementacija hiperpovezav do Slovarja slovenskega knjižnega jezika, druga izdaja, na slovarskem portalu Fran
  • Priprava in uvoz slovenskega besedila za spletno stran
  • Namestitev programsko opreme na spletni strežnik
  • Preizkus vprašalnika, pridobivanje povratnih informacij
  • Implementacija sprememb na podlagi povratnih informacij

FAZA A5 – PRIPRAVA STRATEGIJE ZA PROMOCIJO VPRAŠALNIKA

  • Opredelitev želenih ciljnih skupin
  • Priprava podrobne promocijske strategije
  • Priprava gradiva za promocijo vprašalnika (elektronska pošta, besedila za družbene medije itd.)

FAZA A6 – IZVEDBA VPRAŠALNIKA

  • Zagon vprašalnika
  • Promocijske dejavnosti

FAZA A7 – RAZVOJ KONCEPTA UPORABE PODATKOV O RAZŠIRJENOSTI BESED V LEKSIKOGRAFIJI

  • Vzpostavitev protokola za izvajanje podatkov o razširjenosti besed pri pripravi seznamov iztočnic v slovarskih projektih
  • Opredelitev, kako podatki o razširjenosti besed vplivajo na leksikografske odločitve pri določenih tipih iztočnic
  • Opredelitev, kako ugotovljena razširjenost besed vpliva na njihovo prednost pri uslovarjanju

FAZA A8 – ANALIZA PODATKOV

  • Analiza ustreznosti odgovorov in odzivnega časa glede na demografske podatke (starost, materni jezik itd.)
  • Priprava R skripte za statistične analize
  • Modeliranje rezultatov z regresijskimi analizami
  • Interpretacija rezultatov in korelacije med psiholingvističnimi spremenljivkami

FAZA A9 – IMPLEMENTACIJA PODATKOV O RAZŠIRJENOSTI BESED V PROCES SESTAVLJANJA SLOVARJEV

  • Uvoz podatkov o razširjenosti besed v slovarsko podatkovno zbirko
  • Izboljšanje postopka odločanja o vključitvi/izključitvi mejnih lem na podlagi podatkov o razširjenosti besed
  • Prilagoditev vrstnega reda izdelave slovarskih sestavkov na podlagi podatkov o razširjenosti besed

FAZA A10, B5 – OBJAVA PODATKOV

  • Izvoz neobdelanih podatkov (odgovore in seje) in statistično obdelanih podatkov v besedilno datoteko s tabulatorskim ločilom
  • Dodajanje ustreznih metapodatkovnih opisov
  • Objava podatkov pod odprto licenco v repozitoriju; npr. repozitorij Clarin.SI

FAZA A11, B6 – PREGLED NAD PROJEKTOM IN DISEMINACIJA REZULTATOV

  • Sodelovanje vodje projekta in svetovalca pri projektu
  • Diseminacija rezultatov z objavljanjem raziskovalnih člankov in predstavitvami na konferencah

FAZA B1 – PRIPRAVA NABORA PODATKOV O BESEDAH IN SLIKAH

  • Določitev števila besed (in mašilnih besed) za testiranje
  • Pridobitev parov slika - beseda (ciljna oz. mašilna)  iz podatkovne zbirke Franček
  • Izbor parov besed in slik za testiranje

FAZA B2 – PRIPRAVA PROGRAMSKE OPREME VPRAŠALNIKA ZA PARE BESED IN SLIK

  • Uvoz podatkov o parih beseda - slika
  • Prilagoditev polj za sociodemografske metapodatke
  • Prilagoditev načina izbora besed za anketirance
  • Implementacija hiperpovezav do Slovarja slovenskega knjižnega jezika, druga izdaja, na slovarskem portalu Fran
  • Priprava in uvoz slovenskega besedila za spletno stran
  • Namestitev programske opreme na spletni strežnik
  • Preizkus vprašalnika, pridobivanje povratnih informacij
  • Implementacija sprememb na podlagi povratnih informacij

FAZA B3 – IZVEDBA VPRAŠALNIKA O BESEDAH IN SLIKAH NA PARIH BESED IN SLIK

  • Zagon vprašalnika
  • Promocijske dejavnosti

FAZA B4 – ANALIZA PODATKOV

  • Analiza ustreznosti odgovorov in odzivnega časa glede na demografske podatke (starost, materni jezik itd.)
  • Priprava R skripte za statistične analize
  • Modeliranje rezultatov z regresijskimi analizami
  • Interpretacija rezultatov in korelacije med psiholingvističnimi spremenljivkami

 

FAZA B5 – prim. A10, B5

 

FAZA B6 – prim. A11, B6


Rezultati

Spletna aplikacija

Besedomat - logotip

 


 

Besedomat. Spletna aplikacija, preizkus besedišča.

Objave v medijih

RTV Slovenija. Jezikovni pogovori. https://365.rtvslo.si/podkast/jezikovni-pogovori/175087721

Delo. Beseda tedna. Izbor. https://www.delo.si/magazin/zanimivosti/izbor

RTV Slovenija. KiKs. Besedomat: bi prepoznali izmišljene besede? https://365.rtvslo.si/podkast/kiks/175099499

RTV Slovenija. Jezikanje. Veste, kaj pomenijo besede eksaltiran, tulpika, lakoničen in bosjak? https://365.rtvslo.si/podkast/jezikanje/175102035

Delo. Besedna igra, ki bo koristila tudi logopedom. https://www.delo.si/magazin/zanimivosti/uporabniki-se-igrajo-jezikoslovci-zbirajo-podatke-ki-bodo-koristili-logopedom

Predavanja in predstavitve

Perdih, Andrej, Pavlič, Matic, Pogorelčnik, Tina. Koliko besed poznaš? : Besedomat: množična raziskava razširjenosti slovenskih besed : predavanje, Lingvistični krožek, Filozofska fakulteta v Ljubljani, 11. nov. 2024.

Perdih, Andrej, Pogorelčnik, Tina, Ježovnik, Janoš. Koliko besed poznamo in katere so skupne vsem govorcem slovenščine? : pogovorni večer, Knjigarna kavarna Maks, Nova Gorica, 30. jan. 2025.


Raziskovalni projekt