Tänapäeval on elektroonilisi tekste väga palju, ka automaatselt veebist korjatud korpused on väga suured. Otsides nendest tekstidest mingit infot või keelekorpustest keelematerjali, on vaja teada tekstide žanrilist kuuluvust – kas analüüsitav lause pärineb ilukirjandustekstist, spordiuudisest, internetikommentaarist või -foorumist vms. Seega on vaja tekste liigitada vastavalt nende tekstiliigilisele või žanrilisele kuuluvusele. Selle ülesande lahendamiseks on kõigepealt vaja välja uurida, millised tunnused on olulised eestikeelsete tekstide liigitamiseks ja kuidas need tunnused keeleliselt avalduvad.
Veel üks oluline uurimissuund on vanemate tekstide automaattöötlus. Üks abistav samm vanemate tekstide analüüsil on nendele tänapäeva keelele lähedasema vahekihi tekitamine, vanade tekstide "tõlkimine" tänapäeva keelekujule. Sellist "tõlkimist" nimetatakse ka normaliseerimiseks. Normaliseeritud vahekiht hõlbustab tekstidest otsimist ning võimaldab tekste automaatselt analüüsida tänapäeva keelekasutuse jaoks mõeldud vahendite abil.
Teine vanemate tekstidega seonduv teema on nendest automaatne info eraldamine, praegu keskendutakse nimeüksuste (isikunimed, kohanimed, organisatsioonide nimed jne) automaatsele tuvastamisele.
Arvutilingvistika vallas tehakse tihedat koostööd informaatikute ja Tartu Ülikooli arvutiteaduse instituudiga.