Autor:
Lauri Kulpsoo

Keelekogud

TÜ eesti ja üldkeelteaduse instituudis hoitakse ja luuakse mitut sorti keelekogusid. Suurem osa keelekogusid on erinevatel põhimõtetel koostatud korpused.

Siin lehel on valik eesti ja üldkeeleteaduse instituudi kogudest. Laiema ülevaate eesti keele ressurssidest, mida luuakse ka TÜ arvutiteaduste instituudis, Eesti Keele Instituudis, TalTechi kõnetehnoloogia laboris, annab Eesti keeleressursside keskuse register MetaShare

Keelekogu Lühikirjeldus
Eesti murrete ja sugulaskeelte arhiiv

Korpus sisaldab erinevat keelematerjali: heli- ja videosalvestisi, transkriptsioone ja kirjalikke ülestähendusi, fotosid välitöödest ja keelejuhtidest,  käsikirjalisi ülevaateid ja üliõpilastöid.

Eesti keele spontaanse kõne foneetiline korpus

Korpus koosneb kõne salvestistest ja TextGrid formaadis märgendusest. Salvestused on tehtud foneetika labori salvestusruumis. Käsitsi on märgendatud sõnad ja häälikud ning nende piirid helisignaalis (u 100 tundi / ligi miljon sõna), automaatselt on lisatud silbitus, morfoloogiline analüüs jm. Sisaldab ka videosalvestusi.

Eesti murrete korpus

Korpus sisaldab helisalvestisi eesti murretest, nende litereeringuid (1,8 mln tekstisõna), morfoloogilist märegndust (1,3 mln tekstisõna) ning metainfot. Lisaks eesti murretele on korpuses ka võrreldavad materjalid liivi (60 000 sõna) ja vadja keelest (34 000 sõna).

Eesti vana kirjakeele korpus

Korpus sisaldab olulisemaid tekste 16.--19. sajandist (u 2 miljonit tekstisõna). Tekstid on arvutisse sisestatud autorite kirjaviisi muutmata. Vanemad tekstid on morfoloogiliselt märgendatud ning märksõnastatud tänapäevase keele vastetega.

Suulise eesti keele korpus

Korpus koosneb loomulikus suhtlussituatsioonis peetud vestluste salvestistest ja nende litereeringutest (u 750 tundi / 2,4 miljonit sõna). Litereeringutes kasutatakse vestlusanalüüsi transkriptsiooni. Iga salvestise juurde kuulub taustakirjeldus, mis annab infot suhtlussituatsiooni ja osalejate kohta.

Interdistsiplinaarne seto korpus SetKo

Korpus võimaldab tundma õppida eri piirkondade seto keelt, kultuuri, traditsioone ja õigeusu kiriku pärandit. Korpus koosneb aastatel 2010-2022 välitöödel läbi viidud kõne salvestustest, mis on litereeritud ja morfoloogiliselt märgendatud (176 tundi, 50 tuhat sõna).

Eesti teismeliste korpus

Eesti teismeliste kõne- ja netikeel. Kõnekorpus sisaldab salvestatud vestluseid (u 230 tundi) ja nende transkriptsioone (u 500 tuhat sõna).

Võru ja seto keelekorpus

Võru ja seto keelekorpus koosneb kirjakeele ja suulise keele allkorpustest. Kirjakeele korpuses on ajalehtede Uma Leht ja Setomaa tekstid ning ilukirjandustekstid, kokku u 1,3 miljonit sõna). 

Suulise keele allkorpus sisaldab argivestluste heli- ja videosalvestusi (u 50 h), võru väikelaste videosalvestusi (u 26 h), setokeelseid murdeintervjuusid eesti murrete ja sugulaskeelte arhiivist (u 8 h), võrukeelse suveülikooli ettekandeid. Salvestustest on litereeritud 121 tuhat sõna.

Korpus on valminud koostöös Võro Instituudiga. Projektiga saab lähemalt tutvuda siin.

Eesti keele ja kultuuri kursused

Eesti keele õppematerjalid keelehuvilistele iseseisvaks tööks või praktiseerimiseks õpetaja juhendamisel. Algtaseme kursustel on tugikeeleks inglise keel, harjutusi kontrollib arvuti.

Keeleülesanded

Emakeele olümpiaadide ülesanded ja keeleviktoriinid.

Uralic Typological database – UraTyp

Uurali keelte tüpoloogiline andmebaas koondab infot uurali keelte struktuurijoonte kohta. Andmebaasis on 35 keelt ning 360 struktuurijoont (morfoloogilised, süntaktilised ja fonoloogilised jooned). Neist 195 on kogutud Grambanki küsimustiku abil ning kajastuvad seega ühtlasi Grambanki andmebaasis


Andmebaas on valminud Tartu Ülikooli, Turu Ülikooli, Uppsala Ülikooli teadlaste koostöös, veebirakenduse arendus on toimunud koostöös Max Plancki evolutsioonilise antropoloogia instituudiga.  

 
Kas leidsite vajaliku informatsiooni? *
Aitäh tagasiside eest!