Suvel viisid EKI teadlased läbi katse, milles võrreldi eri tootjate suuri keelemudeleid eesti keele korpuse analüüsimisel. Eesmärk oli selgitada, kas mudelid suudavad eristada sõnade tähendusi ja kasutusviise.

Kalendris vaatab juba üle nädala aja vastu uus aastanumber. Koos EKI kolleegi Eleri Aedmaaga vaatasime aastanumbrit juba suvel, kui disainisime üht katset, millega võrrelda suuri keelemudeleid.1 Pilootkatses andsime eri tootjate mudelitele (Anthropicu, Google’i ja OpenAI omadele, mis olid kättesaadavad juulis 2025) ülesandeks analüüsida eesti keele ühendkorpuse (2023) lauseid. Kuna näiteks inglise keele puhul on suuri keelemudeleid korpuseandmete analüüsimiseks juba edukalt rakendatud2, tahtsime näha, kas mudelid saavad hakkama ka eesti keele registrite eristamisega.

Ühel juhul lasime mudelitel materjalist katsesõnade tähendusi ise eristada ja teisel juhul andsime sõna ette konkreetses tähenduses. Mõlemal juhul huvitas meid see, kas sõna tema konkreetsetes tähendustes kasutatakse korpusmaterjalis kõnekeelses või neutraalses ümbruses.

Valisime pilooti EKI ühendsõnastikus (2025) kõnekeelseks märgitud tähendusega sõnu, millest osade puhul me lisatud märgendis ei kahelnud, näiteks kits ‘pealekaebaja’ ja alukad ‘aluspüksid’, aga võtsime hulka ka selliseid sõnu, mille puhul paistis märgendi lisamise taga olevat midagi muud kui tegelik kasutus, nagu eelmainitud aastanumber ‘kalendriaastat märkiv arv’. Nimelt on erialaspetsialistid proovinud eristada sõnade number ja arv tähendust, jättes sõnale number tähenduseks vaid ‘arvu tähistav sümbol’ ja arvule ‘kogust või hulka väljendav matemaatiline väärtus’. Seetõttu on sõna number kasutus arvu sünonüümina olnud märgitud kõnekeelseks.

Liitsõna aastanumber puhul selline eristus üldkeelses kasutuses aga ei kajastu. Seda tõendasid kõigi katsetatud mudelite vastused nii tähenduste eristamise kui ka etteantud tähendusega prompti puhul: tähenduse ‘kalendriaasta number’ kohta vastasid kõik nagu ühest suust, et korpusmaterjalis kasutatakse sõna niiviisi neutraalsetes tekstides.

Küll aga leidis Gemini 2.5 Pro korpusest aastanumbrile veel ühe tähenduse: ’inimese vanus’, nagu lauses “Kui mehe aastanumber on suurem kui saapa number, siis pole häbiasi asja uurida läbi luubi”. Sellise kasutuse märkis mudel kõnekeelseks, lisades, et nii esineb sõna harva. Tuhandeid ja kümneid tuhandeid lauseid ongi inimpilguga äärmiselt ajamahukas läbi analüüsida ja nii võivad harvemad tähendused vahel märkamata jääda – ja siin saavad suured keelemudelid olla potentsiaalseks abiliseks neid tähendusi märkama.

Mis aga aastanumbrisse puutub, siis üldkeelses ehk mitte erialases kasutuses on see täiesti tavaline sõna ‘kalendriaasta numbri’ kohta. Eks näis, milliseks tänavune aasta ise kujuneb, kas täiesti tavaliseks või tavapäratuks.

 *

1 Lõppkatse kohta saab lähemalt lugeda aprillis ilmuvast Eesti Rakenduslingvistika Ühingu aastaraamatust.

2 Vt Mark Davies 2025. CORPORA AND AI / LLMs: Genres. – Integrating AI / LLMs into English-Corpora.org, https://www.english-corpora.org/ai-llms/genres.pdf

Loe edasi