Keelekogud

TÜ eesti ja üldkeelteaduse instituudis hoitakse ja luuakse mitut sorti keelekogusid. Suurem osa keelekogusid on erinevatel põhimõtetel koostatud korpused.

Siin lehel on valik eesti ja üldkeeleteaduse instituudi kogudest. Laiema ülevaate eesti keele ressurssidest, mida luuakse ka TÜ arvutiteaduste instituudis, Eesti Keele Instituudis, TalTechi kõnetehnoloogia laboris, annab Eesti keeleressursside keskuse register MetaShare.

KeelekoguLühikirjeldus
Eesti murrete ja sugulaskeelte arhiivKorpus sisaldab erinevat keelematerjali: heli- ja videosalvestisi, transkriptsioone ja kirjalikke ülestähendusi, fotosid välitöödest ja keelejuhtidest, käsikirjalisi ülevaateid ja üliõpilastöid.
Eesti keele spontaanse kõne foneetiline korpusKorpus koosneb kõne salvestistest ja TextGrid formaadis märgendusest. Salvestused on tehtud foneetika labori salvestusruumis. Käsitsi on märgendatud sõnad ja häälikud ning nende piirid helisignaalis (u 100 tundi / ligi miljon sõna), automaatselt on lisatud silbitus, morfoloogiline analüüs jm. Sisaldab ka videosalvestusi.
Eesti murrete korpusKorpus sisaldab helisalvestisi eesti murretest, nende litereeringuid (1,8 mln tekstisõna), morfoloogilist märegndust (1,3 mln tekstisõna) ning metainfot. Lisaks eesti murretele on korpuses ka võrreldavad materjalid liivi (60 000 sõna) ja vadja keelest (34 000 sõna).
Eesti vana kirjakeele korpusKorpus sisaldab olulisemaid tekste 16.--19. sajandist (u 2 miljonit tekstisõna). Tekstid on arvutisse sisestatud autorite kirjaviisi muutmata. Vanemad tekstid on morfoloogiliselt märgendatud ning märksõnastatud tänapäevase keele vastetega.
Suuline eesti keel arvudesProjekti "Suuline eesti keel arvudes" (EKKD93 ja EKKD117, 2022-2023) eesmärk oli pakkuda suulise eesti keele kohta baasstatistikat (keeleliste üksuste sagedusi ja pikkuseid) kahe olemasoleva suulise korpuse (foneetikakorpus ja TeKE) põhjal ning nende kõrvale luua suuremahuline automaatselt transkribeeritud ring- ja taskuhäälingute korpus. Loodud korpused ning sagedusandmestikud on kättesaadavad DataDOI repositooriumist. ERR-i raadiosaadete korpus on ka kättesaadav Korp otsimootoris. Lisaks loodi andmestikke illustreeriv interaktiivne veebileht, kus on võimalik teha päringuid sõna- ja häälikukombinatsioonide sageduste kohta jms.
Suulise eesti keele korpusKorpus koosneb loomulikus suhtlussituatsioonis peetud vestluste salvestistest ja nende litereeringutest (u 750 tundi / 2,4 miljonit sõna). Litereeringutes kasutatakse vestlusanalüüsi transkriptsiooni. Iga salvestise juurde kuulub taustakirjeldus, mis annab infot suhtlussituatsiooni ja osalejate kohta.
Interdistsiplinaarne seto korpus SetKoKorpus võimaldab tundma õppida eri piirkondade seto keelt, kultuuri, traditsioone ja õigeusu kiriku pärandit. Korpus koosneb aastatel 2010-2022 välitöödel läbi viidud kõne salvestustest, mis on litereeritud ja morfoloogiliselt märgendatud (176 tundi, 50 tuhat sõna).
Eesti Rahvusringhäälingu raadiosaadete korpusKorpus koosneb ERR-i raadiosaadetest ja nende transkriptsioonidest. Korpuses on 53 000 raadiosaadet kogukestusega 16 tuhat tundi, mis on salvestatud vahemikus 1930–2022. Salvestused on transkribeeritud Tallinna Tehnikaülikooli automaatse kõnetuvastusega ning tekstid on automaatselt morfanalüüsitud EstNLTK-ga. Kokku on korpuses 109 miljonit sõna. Korpus on valminud koostöös Tartu Ülikooli ja Eesti Rahvusringhäälingu ning Tallinna Tehnikaülikooliga projektide EKKD93 "Suuline eesti keel arvudes" jaa EKKD117 "Suuline eesti keel arvudes II" (Haridus- ja Teadusministeeriumi programm "Eesti keel ja kultuur digiajastul") raames.
Eesti taskuhäälingukorpusKorpus koosneb eesti taskuhäälingusaadetest ja nende transkriptsioonidest. Korpuses on kokku 10 633 episoodi 184 erinevast taskuhäälingust, kogukestusega 10 918 tundi, mis on salvestatud vahemikus 2018–2022. Salvestused on transkribeeritud Tallinna Tehnikaülikooli automaatse kõnetuvastusega ning tekstid on automaatselt morfanalüüsitud EstNLTK-ga. Kokku on korpuses 85 miljonit sõna. Korpus on kogutud andmekaeveks teadustöö eesmärgil. Korpus on koostatud veebikraapimismeetodil, siia on valitud eriinevaid eestikeelseid podcaste, mida kajastavad portaalid podcastid.ee ja podcast.ee. Korpus on valminud koostöös Tartu Ülikooli ning Tallinna Tehnikaülikooliga projektide EKKD93 "Suuline eesti keel arvudes" ja EKKD117 "Suuline eesti keel arvudes II" (Haridus- ja Teadusministeeriumi programm "Eesti keel ja kultuur digiajastul") raames.
Eesti teismeliste korpus (TeKE)Eesti teismeliste kõne- ja netikeel. Kõnekorpus sisaldab salvestatud vestluseid (u 230 tundi) ja nende transkriptsioone (u 500 tuhat sõna).
Eesti keele ja kultuuri kursusedEesti keele õppematerjalid keelehuvilistele iseseisvaks tööks või praktiseerimiseks õpetaja juhendamisel. Algtaseme kursustel on tugikeeleks inglise keel, harjutusi kontrollib arvuti.
KeeleülesandedEmakeele olümpiaadide ülesanded ja keeleviktoriinid.
Uralic Typological database – UraTyp

Uurali keelte tüpoloogiline andmebaas koondab infot uurali keelte struktuurijoonte kohta. Andmebaasis on 35 keelt ning 360 struktuurijoont (morfoloogilised, süntaktilised ja fonoloogilised jooned). Neist 195 on kogutud Grambanki küsimustiku abil ning kajastuvad seega ühtlasi Grambanki andmebaasis.


Andmebaas on valminud Tartu Ülikooli, Turu Ülikooli, Uppsala Ülikooli teadlaste koostöös, veebirakenduse arendus on toimunud koostöös Max Plancki evolutsioonilise antropoloogia instituudiga.