Velepodatki

Opis terminološkega problema:

Vprašal bi vas, kako pravilno prevesti termin big data, ki označuje veliko množico podatkov, ki nastaja z veliko hitrostjo, in sicer z vsako našo aktivnostjo na spletu ali z delovanjem povezanih naprav, npr. pametnih ur, pametnih hladilnikov. V rabi se pojavljata veliko podatkovje in masovni podatki.

Vprašanje poslano: 4. 11. 2021

Mnenje Terminološke sekcije:

Za pojem, ki vas zanima, je v rabi več slovenskih poimenovanj. Poleg masovnih podatkov in velikega podatkovja, ki ju omenjate že sami, smo našli še velepodatke, množične podatke, obsežne podatke, množico podatkov in gmoto podatkov. Pojavljajo se tako v strokovnih besedilih kot v terminoloških virih.

V terminološkem slovarju spletnega oglaševanja Iprom angleškemu terminu big data ustreza poimenovanje množica podatkov, ki je opisno in zato manj optimalno kot ostale možnosti. Prav tako je opisno in zato manj primerno poimenovanje gmota podatkov. V Islovar so vključeni masovni podatki in obsežni podatki, pri čemer slednji z oznako glej (gl.) usmerjajo na masovne podatke. Ti so definirani kot 'obsežna podatkovna zbirka kompleksnih in navadno nestrukturiranih podatkov iz medsebojno neodvisnih podatkovnih virov'. Masovni podatki se pojavljajo tako v strokovnih besedilih s področja računalništva, gl. npr. magistrsko delo U. Podobnikarja Upravljanje kakovosti in čiščenje podatkov (2016, npr. str. 36), kot tudi v besedilih z drugih področjih. Izpostaviti velja področje ekonomije, kar je pričakovano glede na to, da na Ekonomski fakulteti Univerze v Ljubljani poučujejo predmet Analiza masovnih podatkov.

Zelo pogosto angleškemu terminu ustreza tudi termin velepodatki, ki je uveljavljen na Fakulteti za računalništvo in informatiko Univerze v Ljubljani, na kateri poučujejo predmet Velepodatki. Ustaljenost tega termina sta potrdila tudi dva strokovnjaka z omenjene fakultete. Potrjujejo ga različna strokovna besedila, prim. npr. doktorsko disertacijo D. Kozjeka Okvir za informacijsko podporo procesom v proizvodnih sistemih na osnovi velepodatkov (2019) in Letno poročilo družbe Elektro Ljubljana, 2020, str. 102.

V vprašanju omenjate tudi veliko podatkovje, ki se – vsaj po pregledu gradiva, ki smo ga opravili – praviloma pojavlja v drugih strokah in ne v računalništvu. V tem smislu bi lahko govorili o vzporednih terminih, ki se za isti pojem pojavljajo v različnih strokah. To pa, kot ste ugotovili že sami, lahko povzroča dilemo, kateri termin je ustreznejši, ali celo komunikacijske šume.

Po opravljeni analizi ugotavljamo, da se za big data najpogosteje uporabljata termina velepodatki in masovni podatki. Prvi je tesneje navezan na angleški termin, saj je vele… po SSK2 prvi del zloženk, razložen kot 'nanašajoč se na velik'. Njegova prednost je tudi, da je enobeseden in da nedvoumno označuje zadevni pojem. Poimenovanje masovni podatki izhaja iz vsebine pojma – gre namreč za ogromno podatkov in ne za velike podatke –, zanimivo pa je, da se je kot sestavina termina uveljavil pridevnik masovni in ne množični. Pridevnika sta namreč sinonima, tako SSKJ2 kot Slovenski pravopis 2001 pa pridevnik masoven usmerjata na množičen. Množični podatki se sicer pojavljajo, vendar bistveno manj pogosto kot masovni podatki.

Oba termina sta v rabi ustaljena, pri čemer je njuna raba odvisna tako od stroke kot tudi od konkretnega avtorja. Ker pa pri našem terminološkem svetovanju predlagamo eno rešitev, vam svetujemo, da za angleški big data uporabljate slovenski termin velepodatki. Termin je ustaljen na področju, na katerem se pojem primarno uporablja, in širše, je enobeseden in sporočilno nedvoumen.

Avtorji: Simon Atelšek, Tanja Fajfar, Mateja Jemec Tomazin, Jera Sitar, Mitja Trojar, Mojca Žagar Karer