Korpuslingvistika on keeleteaduse suund, mis tegeleb loomuliku keele tekstikogude (keelekorpuste) koostamise, töötlemise ja kasutamisega. Tekstikogude koostamisel kasutatakse arvutitehnoloogiat.

Ajalugu

Esimeseks suureks keelekorpuseks on Browni korpus (inglise Brown Corpus), mis loodi 1960. aastatel Browni Ülikoolis. See sisaldas 500 tekstifragmenti, igas 2000 sõna, mis olid avaldatud USA-s inglise keeles 1961. aastal. See 1 miljonit sõna sisaldav korpus sai standardiks korpuste loomisel teistes keeltes. Analoogse mudeli järgi loodi näiteks 1980. aastatel Uppsala Ülikoolis vene keele korpus.

Miljonisõnaline maht on piisav ainult üsna sagedaste sõnade leksikograafiliseks kirjeldamiseks, kuna sõnad ja nende grammatilised konstruktsioonid ei kordu sellises mahus kuigi sageli. Näiteks niisugused igapäevased sõnad nagu inglise polite (viisakas) või sunshine (päikesepaiste) esinevad Browni korpuses koos ainult 7 korda, väljend polite letter ainult üks kord, aga niisugused püsivad väljendid nagu polite conversation, smile ja request mitte kordagi.

Nimetatud põhjustel ja seoses arvutustehnika võimsuste kasvamisega tekkis võimalus töötada suurema mahuga tekstidega. 1980. aastatel tehti mitu katset koostada suuremaid korpusi. Üks neist oli Birmingemi Ülikooli projekt "Bank of English".

Välislingid

No tags for this post.