TÜ eesti ja üldkeelteaduse instituudis hoitakse ja luuakse mitut sorti keelekogusid. Suurem osa keelekogusid on erinevatel põhimõtetel koostatud korpused.
Siin lehel on valik eesti ja üldkeeleteaduse instituudi kogudest. Laiema ülevaate eesti keele ressurssidest, mida luuakse ka TÜ arvutiteaduste instituudis, Eesti Keele Instituudis, TalTechi kõnetehnoloogia laboris, annab Eesti keeleressursside keskuse register MetaShare.
Keelekogu | Lühikirjeldus |
---|---|
Eesti murrete ja sugulaskeelte arhiiv |
Korpus sisaldab erinevat keelematerjali: heli- ja videosalvestisi, transkriptsioone ja kirjalikke ülestähendusi, fotosid välitöödest ja keelejuhtidest, käsikirjalisi ülevaateid ja üliõpilastöid. |
Eesti keele spontaanse kõne foneetiline korpus |
Korpus koosneb kõne salvestistest ja TextGrid formaadis märgendusest. Salvestused on tehtud foneetika labori salvestusruumis. Käsitsi on märgendatud sõnad ja häälikud ning nende piirid helisignaalis (u 100 tundi / ligi miljon sõna), automaatselt on lisatud silbitus, morfoloogiline analüüs jm. Sisaldab ka videosalvestusi. |
Eesti murrete korpus |
Korpus sisaldab helisalvestisi eesti murretest, nende litereeringuid (1,8 mln tekstisõna), morfoloogilist märegndust (1,3 mln tekstisõna) ning metainfot. Lisaks eesti murretele on korpuses ka võrreldavad materjalid liivi (60 000 sõna) ja vadja keelest (34 000 sõna). |
Eesti vana kirjakeele korpus |
Korpus sisaldab olulisemaid tekste 16.--19. sajandist (u 2 miljonit tekstisõna). Tekstid on arvutisse sisestatud autorite kirjaviisi muutmata. Vanemad tekstid on morfoloogiliselt märgendatud ning märksõnastatud tänapäevase keele vastetega. |
Suulise eesti keele korpus |
Korpus koosneb loomulikus suhtlussituatsioonis peetud vestluste salvestistest ja nende litereeringutest (u 750 tundi / 2,4 miljonit sõna). Litereeringutes kasutatakse vestlusanalüüsi transkriptsiooni. Iga salvestise juurde kuulub taustakirjeldus, mis annab infot suhtlussituatsiooni ja osalejate kohta. |
Interdistsiplinaarne seto korpus SetKo |
Korpus võimaldab tundma õppida eri piirkondade seto keelt, kultuuri, traditsioone ja õigeusu kiriku pärandit. Korpus koosneb aastatel 2010-2022 välitöödel läbi viidud kõne salvestustest, mis on litereeritud ja morfoloogiliselt märgendatud (176 tundi, 50 tuhat sõna). |
Eesti teismeliste korpus |
Eesti teismeliste kõne- ja netikeel. Kõnekorpus sisaldab salvestatud vestluseid (u 230 tundi) ja nende transkriptsioone (u 500 tuhat sõna). |
Võru ja seto keelekorpus |
Võru ja seto keelekorpus koosneb kirjakeele ja suulise keele allkorpustest. Kirjakeele korpuses on ajalehtede Uma Leht ja Setomaa tekstid ning ilukirjandustekstid, kokku u 1,3 miljonit sõna). Suulise keele allkorpus sisaldab argivestluste heli- ja videosalvestusi (u 50 h), võru väikelaste videosalvestusi (u 26 h), setokeelseid murdeintervjuusid eesti murrete ja sugulaskeelte arhiivist (u 8 h), võrukeelse suveülikooli ettekandeid. Salvestustest on litereeritud 121 tuhat sõna. Korpus on valminud koostöös Võro Instituudiga. Projektiga saab lähemalt tutvuda siin. |
Eesti keele ja kultuuri kursused |
Eesti keele õppematerjalid keelehuvilistele iseseisvaks tööks või praktiseerimiseks õpetaja juhendamisel. Algtaseme kursustel on tugikeeleks inglise keel, harjutusi kontrollib arvuti. |
Keeleülesanded |
Emakeele olümpiaadide ülesanded ja keeleviktoriinid. |
Uralic Typological database – UraTyp |
Uurali keelte tüpoloogiline andmebaas koondab infot uurali keelte struktuurijoonte kohta. Andmebaasis on 35 keelt ning 360 struktuurijoont (morfoloogilised, süntaktilised ja fonoloogilised jooned). Neist 195 on kogutud Grambanki küsimustiku abil ning kajastuvad seega ühtlasi Grambanki andmebaasis.
|