Arvutilingvistika ja digihumanitaaria

Tänapäeval on elektroonilisi tekste väga palju, ka automaatselt veebist korjatud korpused on väga suured. Otsides nendest tekstidest mingit infot või keelekorpustest keelematerjali, on vaja teada tekstide žanrilist kuuluvust – kas analüüsitav lause pärineb ilukirjandustekstist, spordiuudisest, internetikommentaarist või -foorumist vms. Seega on vaja tekste liigitada vastavalt nende tekstiliigilisele või žanrilisele kuuluvusele. Selle ülesande lahendamiseks on kõigepealt vaja välja uurida, millised tunnused on olulised eestikeelsete tekstide liigitamiseks ja kuidas need tunnused keeleliselt avalduvad.

Veel üks oluline uurimissuund on vanemate tekstide automaattöötlus. Üks abistav samm vanemate tekstide analüüsil on nendele tänapäeva keelele lähedasema vahekihi tekitamine, vanade tekstide "tõlkimine" tänapäeva keelekujule. Sellist "tõlkimist" nimetatakse ka normaliseerimiseks. Normaliseeritud vahekiht hõlbustab tekstidest otsimist ning võimaldab tekste automaatselt analüüsida tänapäeva keelekasutuse jaoks mõeldud vahendite abil.

Teine vanemate tekstidega seonduv teema on nendest automaatne info eraldamine, praegu keskendutakse nimeüksuste (isikunimed, kohanimed, organisatsioonide nimed jne) automaatsele tuvastamisele.

Arvutilingvistika vallas tehakse tihedat koostööd informaatikute ja Tartu Ülikooli arvutiteaduse instituudiga.

Suunaga seotud inimesed

Kadri Muischnek
Eesti ja üldkeeleteaduse instituut
Üldkeeleteaduse osakond
arvutilingvistika kaasprofessor 0,5 k
Jakobi 2-426

Arvutiteaduse instituut
Keeletehnoloogia õppetool
keeletehnoloogia kaasprofessor 0,5 k
r 3058
Kadri Muischnek on arvutilingvistika kaasprofessor. Tema teaduslike huvide keskmes on süntaktiline analüüs arvutilingvistikas: süntaktiliselt märgendatud korpused ehk puudepangad ning automaatsed süntaksianalüsaatorid ehk parserid. Samuti tegeleb ta vana kirjakeele automaatanalüüsi probleemide ja tekstide žanrilise klassifitseerimisega. Varem on Kadri tegelenud eesti keele püsiühenditega, millest ta kirjutas ka oma doktoritöö ja mille juurde loodab ta veel kunagi tagasi pöörduda.
Kadri Muischnek
Eesti ja üldkeeleteaduse instituut
Üldkeeleteaduse osakond
arvutilingvistika kaasprofessor 0,5 k
Jakobi 2-426

Arvutiteaduse instituut
Keeletehnoloogia õppetool
keeletehnoloogia kaasprofessor 0,5 k
r 3058
Joshua Wilbur
Eesti ja üldkeeleteaduse instituut
Digihumanitaaria ja infoühiskonna keskus
digihumanitaaria külalislektor
Joshua Wilbur on digihumanitaaria külalislektor. Tal on doktorikraad üldkeeleteaduses ning oma uurimistöös keskendub ta keelte dokumenteerimisele, morfofonoloogiale, süntaksile, korpuslingvistikale, leksikograafiale ja keeletehnoloogiale. Tema eriline uurimishuvi on Pite saami keel – Rootsis kõneldav uurali keelte rühma kuuluv saami keel, mis on välja suremas.
Joshua Wilbur
Eesti ja üldkeeleteaduse instituut
Digihumanitaaria ja infoühiskonna keskus
digihumanitaaria külalislektor
Siim Orasmaa
arvutilingvistika lektor 0,25 k
Siim Orasmaa on arvutilingvistika lektor. Ta arendab eestikeelsete tekstide automaatanalüüsimiseks mõeldud teeki EstNLTK ning õpetab programmeerimise ja tekstitöötlusega seotud aineid. Viimase aja keskne uurimisvaldkond on keeletöötlusvahendite kohandamine vana kirjakeele analüüsimiseks. Varem on Siim tegelenud ka eestikeelsete tekstide ajasemantika ja sündmusanalüüsiga, mille kohta kaitses 2017. aastal doktoritöö.
Siim Orasmaa
arvutilingvistika lektor 0,25 k
Liina Lindström
tänapäeva eesti keele professor
Liina Lindström on tänapäeva eesti keele professor. Tema uurimisvaldkonnad on eesti keele varieerumine ja grammatika, eriti süntaks, ning peamised lähenemisviisid korpusanalüüs ja kvantitatiivsed meetodid. Liina on uurinud eesti keele varieerumist nii suulises kui ka kirjalikus keeles, nii murretes kui ka tänapäeva veebikeeles või teismeliste keelekasutuses. Ta on muu hulgas ka digihumanitaaria ja infoühiskonna keskuse juhataja ja laiemalt digihumanitaaria eestvedaja Tartu Ülikoolis. Ta on tegelenud mitme korpuse koostamisega (eriti eesti murrete korpusega) ja välitöödega, praegu veab ta seto interdistsiplinaarse korpuse loomist ja osaleb projektis "Teismeliste keel Eestis".
Liina Lindström
tänapäeva eesti keele professor
Pärtel Lippus
Eesti keele osakond
Foneetika labor
eesti foneetika kaasprofessor
Jakobi 2-408
+372 737 6512
Pärtel Lippus on eesti foneetika kaasprofessor. Tema uurimisvaldkond on eesti keele prosoodia. Peamiselt on ta uurinud eesti vältesüsteemi, aga ka mõningaid rõhu, intonatsiooni (üllatusküsimused) ning kõne sotsiofoneetilise varieerumise küsimusi (kärisevat häält). Samuti on ta osalenud teiste soome-ugri keelte sõnaprosoodia uurimustes. Pärtel õpetab kursuseid foneetikast ja Praatist, statistikast ja R-ist. Ta on eesti ja soome-ugri keeleteaduse ajakirja toimetaja. Ta juhib eesti keele spontaanse kõne foneetilise korpuse koostamist ja osaleb eesti murrete ja sugulaskeelte arhiivi arendamises.
Pärtel Lippus
Eesti keele osakond
Foneetika labor
eesti foneetika kaasprofessor
Jakobi 2-408
+372 737 6512
Heili Orav
Arvutiteaduse instituut
Keeletehnoloogia õppetool
keeletehnoloogia lektor 0,9 k
r 3059

Eesti ja üldkeeleteaduse instituut
Üldkeeleteaduse osakond
üldkeeleteaduse teadur (tööleping peatatud) 0,1 k
+372 737 6143
Heili Orav on üldkeeleteaduse teadur, kelle eriala kaldub tugevalt arvutilingvistika ja keeletehnoloogia poole. Peamine uurimissuund on leksikaalne semantika. Praegu juhib Eesti Wordneti projekti, mille peamine eesmärk on suuremahuline semantiliste seostega mõistete andmebaas.
Heili Orav
Arvutiteaduse instituut
Keeletehnoloogia õppetool
keeletehnoloogia lektor 0,9 k
r 3059

Eesti ja üldkeeleteaduse instituut
Üldkeeleteaduse osakond
üldkeeleteaduse teadur (tööleping peatatud) 0,1 k
+372 737 6143
Kristiina Vaik
Eesti ja üldkeeleteaduse instituut
Eesti keele osakond
eesti ja soome-ugri keeleteaduse nooremteadur
Jakobi 2-431
Kristiina Vaik on doktorant, kes tegeleb struktureerimata tekstide automaatse klassifitseerimisega. Ta on töötanud andmeanalüütikuna, õpetanud alustavaid arvutilingvistika tudengeid ning osa võtnud mitmetest keeletehnoloogia projektidest. Talle pakub huvi loomuliku keele automaatne töötlus.
Kristiina Vaik
Eesti ja üldkeeleteaduse instituut
Eesti keele osakond
eesti ja soome-ugri keeleteaduse nooremteadur
Jakobi 2-431
Maarja-Liisa Pilvik
Eesti ja üldkeeleteaduse instituut
Eesti keele osakond
eesti keele teadur
Jakobi 2-430
Maarja-Liisa Pilvik on korpuste ja kvantitatiivse lingvistika spetsialist. Ta on seni tegelenud põhiliselt soome keele verbisemantikaga, eesti murrete morfosüntaksiga ja tuletusmorfoloogia produktiivsuse uurimisega eesti keele eri registrites. Laiemalt huvitavad teda keele varieerumine, keeleliste konstruktsioonide kinnistumine ja kognitiivne organiseeritus ning tegelikku keelekasutust suunavate jõudude põimumine, võistlus ja muutumine. Oma töös kasutab ta põhiliselt tekstikorpuste andmeid ning rakendab uurimustes nii kvalitatiivseid kui ka kvantitatiivseid andmeanalüüsi meetodeid. Praegu on ta seotud projektidega, mis tegelevad seto keele korpuse ja teismeliste keele korpuse koostamisega, 19. sajandi vallakohtuprotokollide keele automaattöötluse vahendite väljatöötamisega ja digiteeritud protokollide kui olulise keelelise ja ajaloolise ressursi kasutusvõimaluste testimisega.
Maarja-Liisa Pilvik
Eesti ja üldkeeleteaduse instituut
Eesti keele osakond
eesti keele teadur
Jakobi 2-430
Peeter Tinits
Sotsiaalteaduste valdkond
Ühiskonnateaduste instituut
analüütik 0,5 k

Eesti ja üldkeeleteaduse instituut
Digihumanitaaria ja infoühiskonna keskus
digihumanitaaria spetsialist 0,4 k
Peeter Tinits on digihumanitaaria spetsialist digihumanitaaria ja infoühiskonna keskuses. Ta õpetab Tartu Ülikoolis digihumanitaaria alusaineid ja tekstitöötlust. Uurijana on ta tegelenud 19. sajandi lõpu eesti keelekogukondade kirjeldamisega ajaloolise sotsiolingvistika perspektiivist ja kultuurievolutsiooni raamistiku rakendamisega keeleteaduses ja humanitaarias laiemalt, kombineerides andmeanalüütikat ja mitmesuguseid andmebaase. Koostöös Tartu Ülikooli sotsiaalteadlastega püüab ta praegu Suurte Siirete uurimisgrupis rakendada tekstikaeve vahendeid, et mõista tööstusriikides keskkonnast ja tehnoloogiast mõtlemise nihkeid 20. sajandi jooksul.
Peeter Tinits
Sotsiaalteaduste valdkond
Ühiskonnateaduste instituut
analüütik 0,5 k

Eesti ja üldkeeleteaduse instituut
Digihumanitaaria ja infoühiskonna keskus
digihumanitaaria spetsialist 0,4 k
Kaarel Veskis
doktorant
Kaarel Veskis on eesti keele doktorant ja Eesti Kirjandusmuuseumi Eesti Rahvaluule Arhiivi (ERA) nooremteadur, kes osaleb ERA projektis "Folkloorse varieeruvuse korpuspõhine käsitlus: regilaulutraditsiooni piirkondlikud stiilid, teemavõrgustikud ja suhtlusviisid". Ta on varem ülikoolis õppinud eesti kirjandust ja arvutilingvistikat ja praegu uurib regilaulutekstide poeetiliste sünonüümide arvutianalüüsi võimalusi.
Kaarel Veskis
doktorant
#teadus
Teismelised-suhtlemas

Kuue samba taga: milline on meie teismeliste keelekasutus?

#teadus

Maria Tuulik kaitseb doktoritööd „Adjektiivide süstemaatiline polüseemia eesti keeles tajuadjektiivide näitel“

Maria Tuulik kaitseb doktoritööd "Adjektiivide süstemaatiline polüseemia eesti keeles tajuadjektiivide näitel".
#teadus

Tomasz Wicherkiewicz (Poznan): Minority (language) policies and politics in Poland - a downward spiral?

22. novembril peab TÜlingu ettekande professor Tomasz Wicherkiewicz Poznani ülikoolist Poolas. Ettekande pealkiri on "Minority (language) policies and politics in Poland - a downward spiral?".