Razvoj slovenščine v digitalnem okolju – jezikovni viri in tehnologije
Principal Investigator at ZRC SAZU
Janoš Ježovnik, PhD-
Original Title
Razvoj slovenščine v digitalnem okolju – jezikovni viri in tehnologije
Project Team
Janoš Ježovnik, PhD, Mateja Jemec Tomazin, PhD, Mojca Žagar Karer, PhD, Tanja Fajfar, PhD, Simon Atelšek, PhD, Nina Ledinek, PhD, Andrej Perdih, PhD, Helena Dobrovoljc, PhD, Nataša Gliha Komac, PhD, Mitja Trojar, PhD, Andreja Žele, PhD, Alenka Jelovšek, PhD, Domen Krvina, PhD, Tanja Mirtič, PhD, Karmen Nemec, Duša Divjak Race, PhD-
Duration
4 May 2020–31 August 2022 -
Project Leader
dr. Simon Krek
-
Financial Source
S projektom Razvoj slovenščine v digitalnem okolju, ki ga financira Ministrstvo za kulturo Republike Slovenije, želi Slovenija zadovoljiti potrebe po računalniških izdelkih in storitvah s področja jezikovnih tehnologij za slovenski jezik za raziskovalne organizacije, za podjetja in za širšo javnost. Končni izdelki bodo na uporabniško prijazen način pomagali pri sporazumevanju, sodelovanju, poslovanju, izmenjavi znanja in udeleževanju v družabnih in političnih razpravah, in prispevali k premagovanju jezikovnih meja.
Razvoj jezikovnih tehnologij je izjemnega pomena za preživetje jezika v digitalni dobi, saj se sicer ne bodo mogli vključiti v nove načine komunikacije, metode dela ter preživljanja prostega časa, ki bodo na voljo v prihodnosti. Del te nevarnosti lahko že opazimo v segmentu pametnih asistentov, s katerimi se že danes lahko pogovarjamo – vendar le v nekaj jezikih (Amazon Alexa, 8 jezikov, Google Assistant, 13 jezikov in Apple Siri, 21 jezikov). S projektom Razvoj slovenščine v digitalnem okolju želimo slovenščino pripeljati v družbo teh jezikov.
Vsa programska koda in zbirke podatkov, ki bodo nastale med projektom, bodo dostopne javno pod odprtokodno licenco CC BY-SA 4.0, vse aplikacije (prepoznava govora, transkripcija, strojno prevajanje, terminološki portal in luščenje terminologije) pa bodo (po vzoru latvijskega portala hugo.lv na voljo tudi na javnem portalu RSDO, kjer jih bo vsak lahko preizkusil in uporabljal.
Inštitut za slovenski jezik Frana Ramovša ZRC SAZU vodi 5. delovni sklop Terminološki portal, v katerem je predvidena izdelava terminološkega portala z iskalnikom po terminoloških virih in spletnim konkordančnikom za analizo specializiranih korpusov, orodja za luščenje terminoloških kandidatov iz korpusov, spletnega urejevalnika terminoloških virov, smernic in navodil za sestavljanje terminoloških virov z vzorčnimi podatkovnimi zbirkami in svetovalnica za reševanje terminoloških vprašanj, objavo odgovorov ter priprava načrta razvoja in nadgradnje terminološkega portala po zaključku projekta.
Konzorcijski partnerji
Konzorcij sestavlja dvanajst ustanov, med katerimi so največje izobraževalne in raziskovalne organizacije v Sloveniji – tri univerze in tri javne raziskovalne organizacije – ter šest podjetij.
V okviru Univerze v Ljubljani (UL) kot koordinatorice konzorcija pri projektu sodeluje pet fakultet, ustanoviteljic Centra za jezikovne vire in tehnologije UL (CJVT): Fakulteta za računalništvo in informatiko (FRI), Fakulteta za elektrotehniko (FE), Filozofska fakulteta (FF), Fakulteta za družbene vede (FDV), Pedagoška fakulteta (PEF), poleg tega Fakulteta za upravo (FU). V okviru Univerze v Mariboru (UM) pri projektu sodelujejo: Fakulteta za elektrotehniko, računalništvo in informatiko (FERI), Pedagoška fakulteta (PEF) ter Fakulteta za organizacijske vede (FOV). V okviru Univerze v Novi Gorici (UNG) sodeluje Fakulteta za humanistiko.
Na Institutu »Jožef Stefan« (IJS) sta v projekt vključeni dve enoti: Odsek za tehnologije znanja ter Laboratorij za umetno inteligenco, ki na IJS upravljata infrastrukturo CLARIN.SI. Ta je del evropske infrastrukture CLARIN ERIC, ki spada med dolgoročno vzdrževane evropske infrastrukture ESFRI.
Na Znanstvenoraziskovalnem centru SAZU (ZRC) v projektu sodeluje Inštitut za slovenski jezik Frana Ramovša (ISJFR), osrednja ustanova, namenjena sistematičnemu spremljanju in razlagi slovenskega jezikovnega gradiva, ki vzdržuje slovarski portal Fran kot del svoje raziskovalne infrastrukture. ZRC skupaj z IJS sodeluje tudi pri drugi ESFRI infrastrukturi s področja humanistike, DARIAH-SI, ki jo v Sloveniji koordinira Inštitut za novejšo zgodovino (INZ).
Obstoječe infrastrukture, na čelu s CLARIN.SI, ki so financirane bodisi s strani ARRS ali z evropskimi sredstvi in so namenjene vzdrževanju in dostopu do jezikovnih virov in tehnologij za slovenski jezik, zagotavljajo tudi dolgoročno dostopnost in vzdrževanje rezultatov po koncu projekta.
V raziskovalni infrastrukturi CLARIN.SI od njene vzpostavitve l. 2013 poleg univerz in raziskovalnih organizacij sodelujeta tudi dve podjetji, ki že dlje časa v slovenskem prostoru delujeta na področju razvoja jezikovnih virov in tehnologij, Alpineon, d.o.o. in Amebis, d.o.o. Poleg omenjenih v projektnem konzorciju sodelujeta dve novoustanovljeni podjetji, Aikwit d.o.o. ter Vitasis, d.o.o., prvo deluje na področju nudenja prevajalskih storitev, drugo na področju informacijskih tehnologij. Vsa podjetja bodo v prakso prenašala novo nastale izdelke, od strojnega prevajanja do govornih tehnologij. Preostali dve podjetji, Slovenska tiskovna agencija d.o.o. in Pošta Slovenije d.o.o., sta vključeni kot pomembna uporabnika novorazvitih jezikovnotehnoloških izdelkov. Imata predvsem vlogo evalvatorjev izdelkov v času razvoja ter diseminatorjev projektnih rezultatov med in po koncu projekta.