Skip to main content
Dr. Tomaž Erjavec

Višji znanstveni sodelavec, izredni profesor na področju jezikovnih tehnologij, svetovalec pri Jezikovnotehnološkem razvojnem centru

 

 



+386 1 477 35 07

tomaz.erjavec@zrc-sazu.si

Institut »Jožef Stefan«, Jamova cesta 39, 1000 Ljubljana



Oznake
05023 (ARRS)

Tomaž Erjavec (12. 8. 1960) je dopolnilno zaposlen na Inštitutu za slovenski jezik Frana Ramovša ZRC SAZU, polno zaposlen pa na Odseku za tehnologije znanja na Institutu »Jožef Stefan«. Njegovo raziskovalno delo se odvija na področjih digitalne humanistike in računalniškega jezikoslovja. V okviru Jezikovnotehnološkega razvojnega centra ISJ ZRC SAZU svetuje pri kodiranju slovarjev v skladu z mednarodnimi standardi.

Raziskovalna področja

  • standardi zapisa jezikovnih virov
  • razvoj besedilnih korpusov
  • zapis kompleksnih digitalnih izdaj
  • tehnična in pravna vprašanja distribucije jezikovnih virov
  • razvoj jezikovnih tehnologij za označevanje slovenskega jezika

 

Izobrazba, akademski in znanstvenoraziskovalni naziv

  • 2019: višji raziskovalni sodelavec na ZRC SAZU
  • 2019: strokovno-raziskovalni svetnik na IJS
  • 2015: izredni profesor za področje jezikovnih tehnologij, Univerza v Ljubljani
  • 1997: doktorat »Unifikacija, nasledstvene hierarhije in paradigme v formalizaciji morfologije jezikov«, Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
  • 1992: magisterij »Treatments of Slovene verb morphology in inheritance models«, Center za kognitivno znanost, Univerza v Edinburgu
  • 1990: magisterij »Računalniški sistem za morfološko analizo in sintezo slovenskega jezika«, Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
  • 1984: diploma na Fakulteti za računalništvo in informatiko, Univerza v Ljubljani

 

Zaposlitve in vodstvene funkcije ter kompetence

 

Zaposlitve:

  • 2018–: dopolnilna zaposlitev na Inštitutu za slovenski jezik Frana Ramovša, ZRC SAZU
  • 1984–: Institut »Jožef Stefan«
  • 2014–2020: honorarna zaposlitev na Mednarodni podiplomski šoli Jožefa Stefana
  • 2006–2013: gostujoči profesor na Univerzi v Gradcu, Avstrija
  • 2005–2006, 2008–2012: gostujoči profesor na Univerzi v Novi Gorici
  • 2004: gostujoči znanstvenik na Skupnem raziskovalnem središču EU, Ispra, Italija (6 mesecev)
  • 2002: gostujoči znanstvenik na Univerzi v Tokiu, Japonska (6 mesecev)
  • 1992–1993: asistent na projektu »Integrated Language Database«, Univerza v Edinburgu (1 leto)

 

Vodstvene funkcije (od 2000 dalje):

  • 2017-2020: J7-8280 Viri, metode in orodja za razumevanje, prepoznavanje in razvrščanje različnih oblik družbeno nesprejemljivega diskurza v informacijski družbi: temeljni projekt ARRS (vodja projekta)
  • 2016-2018: L6-7134 Prepovedane knjige na Slovenskem v zgodnjem novem veku: aplikativni projekt ARRS (nosilec na IJS)
  • 2016-2018: J6-7094 Slovenska znanstvena besedila: viri in opis: temeljni projekt ARRS (vodja projekta)
  • 2014–: nacionalni koordinator slovenske raziskovalne infrastrukture za jezikovne vire in tehnologije CLARIN.SI
  • 2014-2017: J6-6842 Viri, orodja in metode za raziskovanje nestandardne spletne slovenščine: Temeljni projekt ARRS (nosilec na IJS)
  • 2014-2015: Izdelava korpusov in leksikonov nestandardnega srbskega in slovenskega jezika: bilateralni projekt SI-SR (vodja slovenske strani)
  • 2014-2015: Izdelava dvojezičnega leksikona za sorodna jezika: bilateralni projekt SI-HR (vodja slovenske strani)
  • 2013-2017: PARSEME: PARSing and Multi-Word Expressions: IC1207 COST Action (slovenski predstavnik)
  • 2013-2016: J6-5561 Slovensko slovstvo v neznanih rokopisih med reformacijo in romantiko: informacijskotehnološko podprte analize in znanstvene objave: temeljni projekt ARRS (nosilec na IJS)
  • 2011-2015: NetWordS: The European Network on Word Structure: EU ESF Network (slovenski predstavnik)
  • 2011-2014: J6-4019 Vodilni humanisti slovenskega prostora med 16. in sredo 19. stoletja ter njihovo socialno in kulturno okolje: temeljni projekt ARRS (nosilec na IJS)
  • 2011-2013: Razvoj modelov historične slovenščine: Google Inc. (nosilec na IJS)
  • 2010-2012: IMPACT: Improving Access to Text: EU FP7 (nosilec na IJS)
  • 2009–2010: Definicija sintaktično-semantične strukture slovenskega glagola: bilateralni francosko-slovenski projekt Proteus (vodja slovenske strani)
  • 2009–2012: Slovensko prevodoslovje - viri in raziskave: temeljni projekt ARRS (nosilec na IJS)
  • 2008–2011: FlaReNet - Razvoj mreže jezikovnih virov: projekt EU FP7 IST NoE (slovenski predstavnik)
  • 2008–2010: Mondilex - Konceptualno modeliranje povezovanja centrov za visokokvalitetne raziskave slovanske leksikografije in njihovih digitalnih virov: projekt EU FP7 SSA (vodja slovenske strani)
  • 2008–2009: Japonsko-slovenski viri za študente japonščine: bilateralni projekt JSPS JP-SI (vodja slovenske strani)
  • 2008-2011: Neznani rokopisi 17. in 18. stoletja: informacijsko-tehnološko podprti register, znanstvenokritične izdaje in analize: aplikativni projekt ARRS (nosilec na IJS)
  • 2007–2009: Jezikoslovno označevanje slovenskega jezika: metode in viri: temeljni projekt ARRS (vodja projekta)
  • 2007–2008: Razvoj jezikovnih virov in modelov strojnega prevajanja za južnoslovanske in balkanske jezika: projekt EU SEE-ERA.NET (vodja slovenske strani)
  • 2007–2009: Digitalni besedilni center z multimedijsko komunikacijo: projekt CRP (nosilec na IJS)
  • 2006–2008: VoiceTRAN II: večjezični govorni komunikator: projekt CRP (nosilec na IJS)
  • 2004–2005: Razvoj jezikovnih virov za strojno prevajanje med slovenščino in srbščino: Bilateralni projekt s Srbijo in Črno goro (vodja slovenske strani)
  • 2004–2007: Znanstvene digitalne edicije slovenske literature: aplikativni projekt ARRS (nosilec na IJS)
  • 2004–2006: Razvoj slovenske mreže korpusov: projekt CRP (nosilec na IJS)
  • 2004–2006: VoiceTRAN: večjezični govorni komunikator: projekt CRP (nosilec na IJS)
  • 2002: Lokalizacija odprtokodnih črkovalnikov ispell in aspell: projekt CRP (nosilec na IJS)

 

Mentorstvo:

  • mentorstvo pri magistrski nalogi: Helena Plahuta, Mateja Košir
  • somentorstvo pri doktorski disertaciji: Jernej Vičič

 

Drugo:

  • 2015: vabljeno predavanje na konferenci ConSOLE XXIII, 23rd Conference of the Student Organization of Linguistics in Europe v Parizu
  • 2015: predsednik programskega odbora delavnice o ponovljivosti in ponovi uporabi v računalniški obdelavi jezikov na konferenci IJCAI, 15th International Conference on Artificial Intelligence v Buenos Airesu
  • 2014: predsednik programskega odbora sekcije za fonologijo, morfologijo in segmentacijo na konferenci EMNLP, Conference on Empirical Methods in Natural Language Processing v Dohi
  • 2013: vabljeno predavanje na konferenci The Seventh International Conference NLP, Corpus Linguistics, E-Learning v Bratislavi
  • 2013: predsednik programskega odbora sekcije za računalniško obdelavo jezikov Srednje in Vzhodne Evrope in Balkana na konferenci ACL Conference of the Association for Computational Linguistics v Sofiji
  • 2007: predsednik programskega odbora poletne šole ESSLLI, 19th European Summer School in Logic, Language and Information, v Dublinu

 

Delo v uredniških odborih, strokovnih komisijah

  • 2013–: tehnični urednik portala Slovenska biografija
  • 2012: član ekspertne skupine za pripravo Nacionalnega programa za jezikovno politiko RS
  • 2005–2006: član ekspertne skupine European Observatory for the Humanities and Social Sciences, European Strategy Forum on Research Infrastructures (ESFRI)
  • 2005–: član uredniškega odbora revije Journal of Language Resources and Evaluation, Springer
  • 2004–2016: redni recenzent za EU, Hrvaške, Češke in Poljske nacionalne projekte s področja jezikovnih tehnologij
  • 2002–: član tehničnega odbora »Informatika, dokumentacija in splošna terminologija« pri Slovenskem inštitutu za standardizacijo, zadolžen predvsem za sodelovanje pri razvoju in sprejetju standardov ISO TC37/SC4 Language resource management
  • 2001–2005: član uredniškega odbora revije Journal of the Computers and the Humanities, Kluwer
  • 2000-2002: član sveta Text Encoding Initiative Consortium
  • 2000-2002: član sveta European Chapter of the Association for Computational Linguistics
  • 1998–: član uredniškega odbora revije International Journal of Corpus Linguistics, John Benjamins
  • 1998–2006: ustanovni predsednik Slovenskega društva za jezikovne tehnologije

2020: The Janes project : language resources and tools for Slovene user generated content, Darja Fišer, Nikola Ljubešić, Tomaž Erjavec

2017: MULTEXT-East, Tomaž Erjavec

2017: Slavic corpus and computational linguistics, Divjak, Dagmar, Sharoff, Tomaž Erjavec

2016: Modernising historical Slovene words, Yves Scherrer, Tomaž Erjavec

2015: The IMP historical Slovene language resources, Tomaž Erjavec

2004: Machine learning of morphosyntactic structure: lemmatizing unknown Slovene words, Tomaž Erjavec, Sašo Džeroski

 

 

Raziskovalna področja
Jezikoslovje H350
Umetna inteligenca P176

Ključne besede
korpusno jezikoslovje
digitalna humanistika