Tänapäeval on elektroonilisi tekste väga palju, ka automaatselt veebist korjatud korpused on väga suured. Otsides nendest tekstidest mingit infot või keelekorpustest keelematerjali, on vaja teada tekstide žanrilist kuuluvust – kas analüüsitav lause pärineb ilukirjandustekstist, spordiuudisest, internetikommentaarist või -foorumist vms. Seega on vaja tekste liigitada vastavalt nende tekstiliigilisele või žanrilisele kuuluvusele. Selle ülesande lahendamiseks on kõigepealt vaja välja uurida, millised tunnused on olulised eestikeelsete tekstide liigitamiseks ja kuidas need tunnused keeleliselt avalduvad.
Veel üks oluline uurimissuund on vanemate tekstide automaattöötlus. Üks abistav samm vanemate tekstide analüüsil on nendele tänapäeva keelele lähedasema vahekihi tekitamine, vanade tekstide "tõlkimine" tänapäeva keelekujule. Sellist "tõlkimist" nimetatakse ka normaliseerimiseks. Normaliseeritud vahekiht hõlbustab tekstidest otsimist ning võimaldab tekste automaatselt analüüsida tänapäeva keelekasutuse jaoks mõeldud vahendite abil.
Teine vanemate tekstidega seonduv teema on nendest automaatne info eraldamine, praegu keskendutakse nimeüksuste (isikunimed, kohanimed, organisatsioonide nimed jne) automaatsele tuvastamisele.
Arvutilingvistika vallas tehakse tihedat koostööd informaatikute ja Tartu Ülikooli arvutiteaduse instituudiga.
Kadri Muischnek on arvutilingvistika kaasprofessor. Tema teaduslike huvide keskmes on süntaktiline analüüs arvutilingvistikas: süntaktiliselt märgendatud korpused ehk puudepangad ning automaatsed süntaksianalüsaatorid ehk parserid. Samuti tegeleb ta vana kirjakeele automaatanalüüsi probleemide ja tekstide žanrilise klassifitseerimisega. Varem on Kadri tegelenud eesti keele püsiühenditega, millest ta kirjutas ka oma doktoritöö ja mille juurde loodab ta veel kunagi tagasi pöörduda.
Joshua Wilbur on digihumanitaaria lektor. Tal on doktorikraad üldkeeleteaduses ning oma uurimistöös keskendub ta keelte dokumenteerimisele, morfofonoloogiale, süntaksile, korpuslingvistikale, leksikograafiale ja keeletehnoloogiale. Tema eriline uurimishuvi on Pite saami keel – Rootsis kõneldav uurali keelte rühma kuuluv saami keel, mis on välja suremas.
Siim Orasmaa on arvutilingvistika lektor. Ta arendab eestikeelsete tekstide automaatanalüüsimiseks mõeldud teeki EstNLTK ning õpetab programmeerimise ja tekstitöötlusega seotud aineid. Viimase aja keskne uurimisvaldkond on keeletöötlusvahendite kohandamine vana kirjakeele analüüsimiseks. Varem on Siim tegelenud ka eestikeelsete tekstide ajasemantika ja sündmusanalüüsiga, mille kohta kaitses 2017. aastal doktoritöö.
Liina Lindström on tänapäeva eesti keele professor. Tema uurimisvaldkonnad on eesti keele varieerumine ja grammatika, eriti süntaks, ning peamised lähenemisviisid korpusanalüüs ja kvantitatiivsed meetodid. Liina on uurinud eesti keele varieerumist nii suulises kui ka kirjalikus keeles, nii murretes kui ka tänapäeva veebikeeles või teismeliste keelekasutuses. Ta on muu hulgas ka üks digihumanitaaria eestvedajaid Tartu Ülikoolis. Ta on tegelenud mitme korpuse koostamisega (eriti eesti murrete korpusega) ja välitöödega, praegu veab ta seto interdistsiplinaarse korpuse loomist ja osaleb projektis "Teismeliste keel Eestis".
Pärtel Lippus on eesti foneetika kaasprofessor. Tema uurimisvaldkond on eesti keele prosoodia. Peamiselt on ta uurinud eesti vältesüsteemi, aga ka mõningaid rõhu, intonatsiooni (üllatusküsimused) ning kõne sotsiofoneetilise varieerumise küsimusi (kärisevat häält). Samuti on ta osalenud teiste soome-ugri keelte sõnaprosoodia uurimustes. Pärtel õpetab kursuseid foneetikast ja Praatist, statistikast ja R-ist. Ta on eesti ja soome-ugri keeleteaduse ajakirja toimetaja. Ta juhib eesti keele spontaanse kõne foneetilise korpuse koostamist ja osaleb eesti murrete ja sugulaskeelte arhiivi arendamises.
Heili Orav on üldkeeleteaduse teadur, kelle eriala kaldub tugevalt arvutilingvistika ja keeletehnoloogia poole. Peamine uurimissuund on leksikaalne semantika. Praegu juhib Eesti Wordneti projekti, mille peamine eesmärk on suuremahuline semantiliste seostega mõistete andmebaas.
Kristiina Vaik on doktorant, kes tegeleb struktureerimata tekstide automaatse klassifitseerimisega. Ta on töötanud andmeanalüütikuna, õpetanud alustavaid arvutilingvistika tudengeid ning osa võtnud mitmetest keeletehnoloogia projektidest. Talle pakub huvi loomuliku keele automaatne töötlus.
Maarja-Liisa Pilvik on korpuste ja kvantitatiivse lingvistika spetsialist. Ta on seni tegelenud põhiliselt soome keele verbisemantikaga, eesti murrete morfosüntaksiga ja tuletusmorfoloogia produktiivsuse uurimisega eesti keele eri registrites. Laiemalt huvitavad teda keele varieerumine, keeleliste konstruktsioonide kinnistumine ja kognitiivne organiseeritus ning tegelikku keelekasutust suunavate jõudude põimumine, võistlus ja muutumine. Oma töös kasutab ta põhiliselt tekstikorpuste andmeid ning rakendab uurimustes nii kvalitatiivseid kui ka kvantitatiivseid andmeanalüüsi meetodeid. Praegu on ta seotud projektidega, mis tegelevad seto keele korpuse ja teismeliste keele korpuse koostamisega, 19. sajandi vallakohtuprotokollide keele automaattöötluse vahendite väljatöötamisega ja digiteeritud protokollide kui olulise keelelise ja ajaloolise ressursi kasutusvõimaluste testimisega.
Peeter Tinits on digihumanitaaria spetsialist digihumanitaaria ja infoühiskonna keskuses. Ta õpetab Tartu Ülikoolis digihumanitaaria alusaineid ja tekstitöötlust. Uurijana on ta tegelenud 19. sajandi lõpu eesti keelekogukondade kirjeldamisega ajaloolise sotsiolingvistika perspektiivist ja kultuurievolutsiooni raamistiku rakendamisega keeleteaduses ja humanitaarias laiemalt, kombineerides andmeanalüütikat ja mitmesuguseid andmebaase. Koostöös Tartu Ülikooli sotsiaalteadlastega püüab ta praegu Suurte Siirete uurimisgrupis rakendada tekstikaeve vahendeid, et mõista tööstusriikides keskkonnast ja tehnoloogiast mõtlemise nihkeid 20. sajandi jooksul.
Kaarel Veskis on eesti keele doktorant ja Eesti Kirjandusmuuseumi Eesti Rahvaluule Arhiivi (ERA) nooremteadur, kes osaleb ERA projektis "Folkloorse varieeruvuse korpuspõhine käsitlus: regilaulutraditsiooni piirkondlikud stiilid, teemavõrgustikud ja suhtlusviisid". Ta on varem ülikoolis õppinud eesti kirjandust ja arvutilingvistikat ja praegu uurib regilaulutekstide poeetiliste sünonüümide arvutianalüüsi võimalusi.