19. detsembril 2024 kell 14.15 kaitseb Kristiina Vaik doktoritööd „Beyond Genres: A Dimensional Text Model for Text Classification“ („Väljaspool žanre: Dimensionaalne tekstimudel tekstide klassifitseerimiseks“).
Juhendajad:
kaasprofessor Kadri Muischnek, Tartu Ülikool
kaasprofessor Kairit Sirts, Tartu Ülikool
Oponent:
professor Veronika Laippala, Turu Ülikool (Soome)
Kokkuvõte:
Interneti võidukäik on suurendanud elektrooniliste tekstide hulka, mis on olnud murranguline mitmete teadusvaldkondade jaoks. Suured veebitekstide korpused on justkui ajakapslid, mis on jäädvustanud meie pidevalt muutuvad keelt. Veebikorpused pakuvad rikkalikku keelematerjali, kuid meil pole selget ülevaadet nende sisust. Kas tegemist on juhusliku sõpradevahelise vestluse või ametliku dokumendiga või hoopis millegi muuga? Veebikorpuste liigitamine on justkui püüd kategoriseerida kõiki raamatuid hiiglaslikus raamatukogus, teadmata, milline on raamatute sisu. Osa keeleuurijaid kasutab liigitusalusena laiasid kategooriad, nagu ajakirjandus või ilukirjandus; samas on ka neid, kes teevad kitsamat eristamist, näiteks jagavad ajakirjanduse kategooria eraldi arvamusteks ja spordiuudisteks. Aastate jooksul on loodud palju erinevaid liigitusi, kuid neil kõigil on üks ühine joon: annoteerijate vähene üksmeel. See tekitab küsimuse, kuidas me saame oodata häid tulemusi masinatelt, kui isegi inimesed ei suuda kokku leppida, mis liiki kirjutisega on tegu? Selleks, et veebikorpuseid maksimaalselt ära kasutada, vajame etemat liigitusalust.
Doktoritöö eesmärk on pakkuda alternatiivne viis veebitekstide kategoriseerimiseks. Selmet suruda tekste kindlatesse kategooriatesse (nagu aja- või ilukirjandus), vaatleb töö hoopis tekstides peituvaid omadusi, mida nimetatakse dimensioonideks. Näiteks vaatleb töö, kas tekst on ametlik või spontaanne, faktiline või arvamuslik, keeruline või lihtne, või kas see räägib abstraktsetest või konkreetsetest nähtustest? Eesmärk on uurida, kas töös pakutud dimensioonid ja raamistik on inimeste jaoks äratuntavad. Kui jah, siis tuvastada, kas ja kuidas pakutud dimensioonid üksteisest erinevad. Tööst järeldub, et annoteerijad saavutasid väljapakutud dimensioonide seas enamjaolt üksmeele, mis viitab dimensioonide selgetele kommunikatiivsetele funktsioonidele, ja et igal dimensioonil on ainulaadne koosesinevate keeleliste tunnuste muster. Tulemused joonduvad suuremas jaos ka juba varasemate uurimustega, kus peamise eristusena saab välja tuua vastanduse kirjaliku kõnekeele (spontaanne, isiklik, subjektiivne) ja standardsema kirjakeele (rohkem planeeritud, formaalne, informatiivne) vahel. Ülejäänud dimensioonid langevad kuhugi vahepeale või sisaldavad vaid neile ainulaadseid eripärasid. Mõistmine, kuidas need dimensioonid ja nende keelelised mustrid omavahel on seotud, loob tugevad eeldused tulevastele uurimustöödele, mille eesmärk on aidata kaasa veebikorpustes peituvate struktuuride uurimisele ja liigitamisele.
Kaitsmist saab vaadata Zoomis (kohtumise ID: 939 6482 0129, pääsukood: 388469).