Svetovanje pri standardizaciji računalniškega zapisa slovarjev in uvajanju jezikovnotehnoloških metod.

Raziskovalna dejavnost

Tomaž Erjavec deluje na področjih računalniškega in formalnega jezikoslovja in jezikovnih tehnologijah, zlasti na izdelavi, jezikoslovnem označevanju in dostopnosti jezikovnih virov. Znaten del njegovega dela je posvečen slovenskemu jeziku: sodeloval je pri izdelavi večine referenčnih slovenskih korpusov in drugih digitalnih jezikovnih virov, od japonsko-slovenskega slovarja za učence japonskega jezika do referenčnega korpusa Gigafida. Področje dela vključuje korpusno jezikoslovje, standarde kodiranja jezika in strojno učenje jezikovnih modelov. Njegovo delo zajema tudi (v Sloveniji) novo področje digitalne humanistike, kjer je aktiven predvsem na izdelavi kompleksnih digitalnih izdaj in digitalnih knjižnic, v splošnem pa v premostitvi prepada med humanistiko in računalništvom in v vzpodbujanju prostega in odprtega dostopa do raziskovalnih podatkov v obliki virov slovenskega jezika.

Izbrane publikacije
  • FIŠER, Darja, LJUBEŠIĆ, Nikola, ERJAVEC, Tomaž. The Janes project : language resources and tools for Slovene user generated content. Language resources and evaluation, 2018, str. 1-24.
  • ERJAVEC, Tomaž. MULTEXT-East. V: IDE, Nancy M. (ur.), PUSTEJOVSKY, James (ur.). Handbook of linguistic annotation. Amsterdam: Springer. 2017, str. 441-46
  • PRUNČ, Erich, OGRIN, Matija, ERJAVEC, Tomaž. Kapelski pasijon v elektronski znanstvenokritični izdaji. "Nov" rokopis, nove raziskovalne poti. V: KRŽIŠNIK, Erika (ur.), HLADNIK, Miran (ur.). Toporišičeva obdobja, (Obdobja, Simpozij, 35). 2016, str. 395-402.
  • SCHERRER, Yves, ERJAVEC, Tomaž. Modernising historical Slovene words. Natural language engineering, 2016, 22/6, str. 881-905.
  • ERJAVEC, Tomaž. The IMP historical Slovene language resources. Language Resources and Evaluation, 2015, 49/3, str. 753-77
  • ERJAVEC, Tomaž, LJUBEŠIĆ, Nikola, LOGAR, Nataša. The slWaC corpus of the Slovene Web. Informatica : an international journal of computing and informatics, 2015, 39/1, str. 35-42.
Vse publikacije (COBISS) >>
Življenjepis

Tomaž Erjavec je zaposlen kot strokovno-raziskovalni svetnik na Odseku za tehnologije znanja na Institutu »Jožef Stefan« in kot višji raziskovalni sodelavec na Inštitutu za slovenski jezik Frana Ramovša ZRC SAZU. Zaposlen je bil tudi na Univerzi v Edinburgu in Tokijski univerzi. Na področjih jezikovnih tehnologij in korpusnega jezikoslovja je poučeval na Univerzi v Novi Gorici, na Univerzi v Gradcu in na Mednarodni podiplomski šoli Jožefa Stefana. Je član uredniškega odbora revij »Language Resources and Evaluation« in »International Journal of Corpus Linguistics« in eden tehničnih urednikov Slovenske biografije. Je ustanovni predsednik slovenskega Društva za jezikovne tehnologije, sodeluje pri izdelavi standardov za zapis jezikovnih virov pri SIST in ISO TC 37 in je nacionalni koordinator raziskovalne infrastrukture za jezikovne vire in tehnologije CLARIN.SI.

Raziskovalna področja

Jezikoslovje H350 • Umetna inteligenca P176 

Ključne besede

jezikovne tehnologije • standardi zapisa jezikovnih podatkov • besedilni korpusi • digitalna humanistika