Skip to main content

Arvutilingvistika ja digihumanitaaria

Tänapäeval on elektroonilisi tekste väga palju, ka automaatselt veebist korjatud korpused on väga suured. Otsides nendest tekstidest mingit infot või keelekorpustest keelematerjali, on vaja teada tekstide žanrilist kuuluvust – kas analüüsitav lause pärineb ilukirjandustekstist, spordiuudisest, internetikommentaarist või -foorumist vms. Seega on vaja tekste liigitada vastavalt nende tekstiliigilisele või žanrilisele kuuluvusele. Selle ülesande lahendamiseks on kõigepealt vaja välja uurida, millised tunnused on olulised eestikeelsete tekstide liigitamiseks ja kuidas need tunnused keeleliselt avalduvad.

Veel üks oluline uurimissuund on vanemate tekstide automaattöötlus. Üks abistav samm vanemate tekstide analüüsil on nendele tänapäeva keelele lähedasema vahekihi tekitamine, vanade tekstide „tõlkimine” tänapäeva keelekujule. Sellist „tõlkimist” nimetatakse ka normaliseerimiseks. Normaliseeritud vahekiht hõlbustab tekstidest otsimist ning võimaldab tekste automaatselt analüüsida tänapäeva keelekasutuse jaoks mõeldud vahendite abil.

Teine vanemate tekstidega seonduv teema on nendest automaatne info eraldamine, praegu keskendutakse nimeüksuste (isikunimed, kohanimed, organisatsioonide nimed jne) automaatsele tuvastamisele.

Arvutilingvistika vallas tehakse tihedat koostööd informaatikute ning Tartu Ülikooli Arvutiteaduste instituudiga.

Suunaga seotud inimesed

Liina Lindström
tänapäeva eesti keele professor
Liina Lindström on tänapäeva eesti keele professor. Tema uurimisvaldkonnaks on eesti keele varieerumine ning grammatika, eriti süntaks, ning peamisteks lähenemisviisideks korpusanalüüs ja kvantitatiivsed meetodid. Liina on uurinud eesti keele varieerumist nii suulises kui kirjalikus keeles, nii murretes kui tänapäeva veebikeeles või teismeliste keelekasutuses. Ta on muuhulgas ka Digihumanitaaria ja Infoühiskonna Keskuse juhataja ning laiemalt digihumanitaaria eestvedaja Tartu Ülikoolis. Ta on tegelenud mitmete korpuste koostamisega (eriti eesti murrete korpusega) ja välitöödega, praegu veab seto interdistsiplinaarse korpuse tegemist ja osaleb projektis "Teismeliste keel Eestis".
Liina Lindström
tänapäeva eesti keele professor
Kadri Muischnek
arvutilingvistika kaasprofessor 0,5 k
keeletehnoloogia kaasprofessor 0,5 k
Kadri Muischnek on arvutilingvistika kaasprofessor. Tema teaduslike huvide keskmes on süntaktiline analüüs arvutilingvistikas: süntaktiliselt märgendatud korpused ehk puudepangad ning automaatsed süntaksianalüsaatorid ehk parserid. Samuti tegeleb ta vana kirjakeele automaatanalüüsi probleemide ning tekstide žanrilise klassifitseerimisega. Varem on Kadri tegelenud eesti keele püsiühenditega, millest ta kirjutas ka oma doktoritöö ja mille juurde loodab ta veel kunagi tagasi pöörduda.
Kadri Muischnek
arvutilingvistika kaasprofessor 0,5 k
keeletehnoloogia kaasprofessor 0,5 k
Pärtel Lippus
eesti foneetika kaasprofessor
737 6512
Pärtel Lippus on eesti foneetika kaasprofessor. Tema uurimisvaldkond on eesti keele prosoodia. Peamiselt on ta uurinud eesti vältesüsteemi, aga ka mõningaid rõhu, intonatsiooni (üllatusküsimused) ning kõne sotsiofoneetilise varieerumise küsimusi (kärisevat häält). Samuti on ta osalenud teiste soome-ugri keelte sõnaprosoodia uurimustes. Pärtel õpetab kursuseid foneetikast ja Praatist, statistikast ja R-ist. Ta on Eesti ja soome-ugri keeleteaduse ajakirja toimetaja. Ta juhib eesti keele spontaanse kõne foneetilise korpuse koostamist ja osaleb eesti murrete ja sugulaskeelte arhiivi arendamises.
Pärtel Lippus
eesti foneetika kaasprofessor
Heili Orav
üldkeeleteaduse teadur 0,1 k
keeletehnoloogia lektor 0,9 k
737 6143
Heili Orav on üldkeeleteaduse teadur, kelle eriala kaldub tugevalt arvutilingvistika ja keeletehnoloogia poole. Peamine uurimissuund on leksikaalne semantika. Praegu juhib Eesti Wordneti projekti, mille peamine eesmärk on suuremahuline semantiliste seostega mõistete andmebaas.
Heili Orav
üldkeeleteaduse teadur 0,1 k
keeletehnoloogia lektor 0,9 k
737 6143
Joshua Wilbur
digihumanitaaria külalislektor
Joshua Wilbur on digihumanitaaria külalislektor. Tal on doktorikraad üldkeeleteaduse erialal ning oma uurimistöös keskendub ta keelte dokumenteerimisele, morfofonoloogiale, süntaksile, korpuslingvistikale, leksikograafiale ja keeletehnoloogiale. Tema eriliseks uurimishuviks on Pite saami keel – Rootsis kõneldav uurali keelte rühma kuuluv saami keel, mis on väljasuremise äärel.
Joshua Wilbur
digihumanitaaria külalislektor
Siim Orasmaa
arvutilingvistika lektor 0,25 k
Siim Orasmaa on arvutilingvistika lektor. Ta tegeleb eestikeelsete tekstide automaatanalüüsimiseks mõeldud teegi EstNLTK arendamisega ning õpetab programmeerimise ja tekstitöötlusega seotud aineid. Viimase aja keskne uurimisvaldkond on keeletöötlusvahendite kohandamine vana kirjakeele analüüsimiseks. Varem on ta tegelenud ka eestikeelsete tekstide ajasemantika ja sündmusanalüüsiga, mille kohta kaitses 2017. a doktoritöö.
Siim Orasmaa
arvutilingvistika lektor 0,25 k
Kristiina Vaik
eesti ja soome-ugri keeleteaduse nooremteadur 0,7 k
Kristiina Vaik on doktorant, kes tegeleb struktureerimata tekstide automaatse klassifitseerimisega. Ta on töötanud andmeanalüütikuna, õpetanud alustavaid arvutilingvistika tudengeid ning osa võtnud mitmetest keeletehnoloogia projektidest. Talle pakub huvi loomuliku keele automaatne töötlus.
Kristiina Vaik
eesti ja soome-ugri keeleteaduse nooremteadur 0,7 k
Maarja-Liisa Pilvik
korpuste ja kvantitatiivse lingvistika spetsialist
Maarja-Liisa Pilvik on korpuste ja kvantitatiivse lingvistika spetsialist. Ta on seni tegelenud põhiliselt soome keele verbisemantikaga, eesti murrete morfosüntaksiga ja tuletusmorfoloogia produktiivsuse uurimisega eesti keele eri registrites. Laiemalt huvitab teda keele varieerumine, keeleliste konstruktsioonide kinnistumine ja kognitiivne organiseeritus ning tegelikku keelekasutust suunavate jõudude põimumine, võistlus ja muutumine. Oma töös kasutab ta põhiliselt tekstikorpuste andmeid ning rakendab uurimustes nii kvalitatiivseid kui ka kvantitatiivseid andmeanalüüsi meetodeid. Hetkel on ta seotud projektidega, mis tegelevad seto keele korpuse ja teismeliste keele korpuse koostamisega ning 19. sajandi vallakohtuprotokollide keele automaattöötluse vahendite väljatöötamisega ja digiteeritud protokollide kui olulise keelelise ja ajaloolise ressursi kasutusvõimaluste testimisega.
Maarja-Liisa Pilvik
korpuste ja kvantitatiivse lingvistika spetsialist
Peeter Tinits
digihumanitaaria spetsialist 0,25 k
analüütik 0,5 k
Peeter Tinits on digihumanitaaria spetsialist Digihumanitaaria ja Infoühiskonna Keskuses. Ta õpetab Tartu Ülikoolis digihumanitaaria alusaineid ja tekstitöötlust. Uurijana on ta tegelenud 19. sajandi lõpu eesti keelekogukondade kirjeldamisega ajaloolise sotsiolingvistika perspektiivist ja kultuurievolutsiooni raamistiku rakendamisega keeleteaduses ja humanitaarias laiemalt, kombineerides andmeanalüütikat ja mitmesuguseid andmebaase. Hetkel püüab ta, koostöös Tartu Ülikooli sotsiaalteadlastega Suurte Siirete uurimisgrupis, rakendada tekstikaeve vahendeid, et mõista nihkeid mõtlemises keskkonnast ja tehnoloogiast tööstusriikides 20. sajandi jooksul.
Peeter Tinits
digihumanitaaria spetsialist 0,25 k
analüütik 0,5 k
Kaarel Veskis
doktorant
Kaarel Veskis on doktorant ja Eesti Kirjandusmuuseumi Eesti Rahvaluule Arhiivi (ERA) nooremteadur, osaledes ERA projektis „Folkloorse varieeruvuse korpuspõhine käsitlus: regilaulutraditsiooni piirkondlikud stiilid, teemavõrgustikud ja suhtlusviisid”. Ta on varem ülikoolis õppinud eesti kirjandust ja arvutilingvistikat ja praegu uurib regilaulutekstide poeetiliste sünonüümide arvutianalüüsi võimalusi.
Kaarel Veskis
doktorant
#teadus

Tekstiuurimine

Tekstianalüüs uurimissuunana jõudis Eesti keeleteadusesse 1990. aastatel.

Jaga
10.12.2021
#teadus

Keeletüpoloogia

Eesti keele tüpoloogilisel uurimisel osaletakse suurtes rahvusvahelistes projektides, millest tähtsamaid on uurali keelte tüpoloogiline andmebaasi UraTyp koostamine.

Jaga
28.11.2021
#teadus

Läänemeresoome keeled

Keskendutakse eesti keele lähimate sugulaskeeltele, mille hulgas on erilisel kohal vadja ja liivi keel, kuna neid on kunagi räägitud ka praeguse Eesti alal.

Jaga
28.11.2021