Reede, juuli 03, 2026

Teadus

AJALOOLINE SAMM ⟩ Postimees annab sadu tuhandeid artikleid teadlastele Eesti oma keelemudeli loomiseks

Postimees ja Eesti Keele Instituut alustavad koostööd.
Eesti keele tulevik digimaailmas sõltub üha enam sellest, millise kvaliteediga keeleandmeid kasutatakse tehisintellekti ja keeletehnoloogiate arendamisel. Postimees Grupp ja Eesti Keele Instituut (EKI) sõlmisid koostööleppe, mis võimaldab EKI-l kasutada Postimehe avaldatud eestikeelset ajakirjanduslikku sisu keeleuurimises ning eestikeelsete keeletehnoloogiate, sealhulgas keelemudelite ja teiste digilahenduste arendamisel.

Postimees Grupi juhatuse esimehe Silver Soomre sõnul on tegu missiooniprojektiga, millega meediamaja täidab oma ajaloolist rolli eesti keele hoidjana. «Meie vaates ei ole see mitte mingisugune äriprojekt,» kinnitas Soomre. «See on meie panus, et eesti keel oleks digitaalses maailmas tugev ja konkurentsivõimeline.»

EKI direktori Arvi Tavasti sõnul on EKI soov hoolitseda selle eest, et eesti keel oleks kasutatav kaasaegsetes digiteenustes ja tehisarul põhinevates lahendustes. «Keelemudelite ja teiste keelerakenduste arendamisel on oluline, et keeleandmed oleksid võimalikult kvaliteetsed ja mitmekesised, hõlmates erinevaid keelekasutusviise alates ametlikest ja teaduslikest tekstidest kuni meedia, kirjanduse ja igapäevase veebikeeleni. Postimees Grupi panus aitab seda andmestikku täiendada nüüdisaegse ja toimetatud eestikeelse materjaliga,» ütles Tavast.

Kvaliteet on võtmetähtsusega

Kokkuleppe alusel saab EKI enda käsutusse enam kui 600 000 artiklit, mis on Postimees Grupi väljaannetes ilmunud aastatel 2019–2024. See on hiiglaslik tekstikogum, mille tähemärkide arvu võib lugeda kümnetes miljonites.

Soomre rõhutas, et Postimehe arhiivi väärtus ei seisne ainult mahus, vaid eelkõige kvaliteedis. «Need ei ole juhuslikud vigased veebitekstid. Tegemist on professionaalsete ajakirjanike loodud ja keeletoimetajate poolt hoolikalt üle käidud korrektse eesti keelega,» selgitas ta. Just selline puhas ja kvaliteetne andmestik on keelemudeli treenimiseks parim võimalik tooraine, mis tagab, et ka tehisaru õpib selgeks rikkaliku sõnavara ja korrektse grammatika.

EKI hakkab selle andmemassiivi abil arendama ja täiendama oma riiklikku eesti keele mudelit. Loodav mudel peaks saama aluseks nii ülikoolide teadustööle kui ka uutele kommertsrakendustele, mis vajavad head eestikeelset keeletehnoloogiat.

Eesti Keele Instituudi (EKI) sõnul on tegemist ajaloolise sammuga, mis annab kodumaisele keeletehnoloogiale täiesti uue hingamise.

EKI keeletehnoloogia osakonna juhataja Kadri Vare sõnul on keelemudelite ja teiste keelerakenduste arendamisel oluline, et kasutatavad keeleandmed oleksid võimalikult kvaliteetsed ja mitmekesised.

«Eesti keele digitaalse elujõu jaoks on vaja, et keeletehnoloogiad tunneksid erinevaid keelekasutusviise, nii ametlikke ja teaduslikke tekste, meediakeelt, kirjandust kui ka igapäevast veebikeelt. EKI eesmärk on luua 15 miljardi sõnaline keeleandmestik, Postimees Grupi panus aitab seda täiendada nüüdisaegse ja toimetatud eestikeelse materjaliga,» ütles Vare.

Rohkem kui lihtsalt uudised: mitmekesine keel on võti

Postimees Grupi materjal ei ole EKI jaoks eraldiseisev «valmis mudeli» alus, vaid üks kvaliteetne allikas laiemas keeleandmestikus. Seda kasutatakse teadus- ja arendustöös koos teiste eestikeelsete keeleressurssidega.

Erinevalt levinud arvamusest ei ole teadlaste eesmärk luua tehisaru, mis räägiks vaid lihtsustatud keeles. Vastupidi – mida rikkalikum ja mitmekesisem on õppematerjal, seda võimekam saab mudel. «Me vajame kõike: teaduskeelt, ajakirjandustekste ja ka tavalist internetikeelt. Mida rohkem stiile ja registreid, seda parem,» selgitas Vare.

Just siin peitubki ajakirjandustekstide unikaalsus. «Postimehe artiklid on kulla väärtusega, sest need katavad ühekorraga ära päevapoliitika, teaduse, kultuuri ja tehnoloogia. See annab keelemudelile laia silmaringi ja mitmekülgse sõnavara, mida mujalt on raske leida,» lisas ta.

Rahvuslik aare, mis jääb Eestisse

Üks lepingu kriitilisemaid punkte on andmete turvalisus. Silver Soomre sõnul oli Postimehe jaoks eluliselt oluline, et väärtuslik andmestik ei satuks kolmandate osapoolte, eriti suurte rahvusvaheliste tehnoloogiafirmade kätte.

«Me ei saa lubada oma sisu vabakasutust tehisaru treenimiseks, sest see oleks vastuolus nii meie äriloogika kui ka autoriõigustega,» ütles Soomre. Ta lisas, et maailmapraktika on näidanud, kuidas suured platvormid andmeid oma äri eesmärkide täitmiseks kurjasti ära kasutavad.

Selle vältimiseks liiguvad andmed Postimehest EKI-sse krüpteeritult mööda turvalist andmevahetuskanalit. Edasine töö toimub koostööleppes sätestatud tingimustel, mis hõlmavad nii andmete anonüümimist kui ka rangeid turvameetmeid, välistades andmete sattumise volitamata isikute kätte. Leping tagab, et materjalid jäävad EKI valdusesse ning neid kasutatakse kokkulepitud teadus- ja arendustöö eesmärkidel.

Soomre lükkas ümber ka kartuse, justkui saaks uue mudeli abil hakata tulevikus genereerima tekste konkreetsete autorite, näiteks Priit Pulleritsu või Mikk Salu stiilis. «Andmeid kasutatakse alusmaterjalina keele reeglipärade õpetamiseks, mitte autoristiilide kopeerimiseks. Neid stiile ei ole hiljem võimalik mudelist sellisel kujul välja võtta,» kinnitas ta.

Eesmärk: Eesti keeletehnoloogiale uus arengutõuge

Praegused keelemudelid saavad eesti keelest pealtnäha hästi aru, kuid EKI mõõdupuu näitab, et süvitsi minnes on neil raskusi näiteks metafooride, iroonia või propaganda äratundmisega. Uus andmestik aitab neid puudujääke vähendada ja täiendada eesti keele uurimiseks ning keeletehnoloogiate arendamiseks kasutatavat andmestikku.

EKI-l on koostöös Tartu Ülikooli, TalTechi ja teiste teadlastega võimalik selle andmemassiivi abil arendada ja täiendada eesti keele mudeleid ning teisi keeletehnoloogiaid. Andmestik toetab keeleuurimist ja loob paremad eeldused ka ülikoolidega tehtavaks teadus- ja arendustööks.

Pikemas vaates võivad sellistel keeleressurssidel põhinevad lahendused jõuda ka uutesse eestikeelsetesse digiteenustesse ja rakendustesse, mis vajavad kvaliteetset keeletehnoloogiat. «Sellise andmestiku kasutamine eeldab selgeid kokkuleppeid ning meie jaoks on see väga oluline samm, sest saame EKI keeleandmestikku täiendada mahuka, mitmekesise ja õiguspäraselt kasutatava tekstikoguga,» kinnitas Vare.

MM Grupi tehnoloogia- ja innovatsioonijuht Martin Havik selgitab, et otsuse taga on kaks kaalukat põhimõtet: vajadus toetada eesti keele arengut ning kohustus kaitsta professionaalse ajakirjanduse väärtust.

«Postimehe loodud sisu on sündinud aastatepikkuse ajakirjandusliku töö tulemusena ning selle kasutamine peab toimuma selgete kokkulepete alusel. Neid kokkuleppeid suured keelemudelid veel ei paku,» ütles Havik. «Seetõttu ei pea me õigeks, et Postimehe arhiiv oleks kõikidele kolmandatele osapooltele piiranguteta kättesaadav.»

Kvaliteet, mitte kvantiteet

Havik rõhutab, et tehisaru ajastul on mängureeglid muutunud. Enam ei ole määrav pelgalt andmete hulk – internetis on eestikeelset teksti tohutult –, vaid nende kvaliteet, usaldusväärsus ja mitmekesisus.

«Just seda pakub Postimehe arhiiv: professionaalselt toimetatud eestikeelne ajakirjandus, mis peegeldab Eesti ühiskonda ja keelekasutust läbi aastate,» sõnas ta. Selline andmestik on hindamatu väärtusega, kuna see ei õpeta tehisarule ainult korrektset grammatikat, vaid annab edasi ka meie kultuuriruumi, ühiskondlikku konteksti ja väärtusi.

Turvaline ja kontrollitud koostöö

Koostöö Eesti Keele Instituudiga (EKI) on Haviku sõnul ideaalne lahendus, mis võimaldab saavutada mõlemad eesmärgid korraga.

«Koostöös EKI-ga saame ühtaegu toetada teadustööd ja seejuures eestikeelse tehisintellekti arengut ning tagada, et meie väärtuslikku sisu kasutatakse kontrollitult, turvaliselt ja ühiskonna huve teenival viisil,» kinnitas Havik.

Andmete turvalisus on koostöö juures võtmetähtsusega. Kogu andmestik antakse EKI-le üle krüpteeritult mööda turvalist andmevahetuskanalit. Edasine töö toimub rangelt koostööleppes sätestatud tingimustel, mis hõlmab nii andmete anonüümimist kui ka rangeid turvameetmeid, välistades andmete sattumise volitamata isikute kätte. Nii aitab Postimehe ajakirjanduslik arhiiv turvalistel ja kokkulepitud tingimustel kaasa Eesti oma keeletehnoloogilise tuleviku arendamisele.

Samm parema tuleviku poole

Kuigi paljud rahvusvahelised keelemudelid saavad eesti keelega juba praegu rahuldavalt hakkama, pole nende tase Soomre hinnangul suurepärane. Veelgi enam, on märke, et uute versioonidega võib väiksemate keelte tase isegi langeda. Seetõttu on ülioluline, et kontroll eesti keele tehnoloogilise arengu üle püsiks Eesti enda käes.

«Lepinguni jõudmine võttis aega umbes pool aastat, kuid visioon oli mõlemal poolel algusest peale ühine,» lisas Silver Soomre. Ta kiitis era- ja avaliku sektori koostööd, kus meediamaja ja teadusasutus «seljad kokku panevad», et saavutada midagi, mis on kasulik kogu Eestile – nii meie digitaalsele konkurentsivõimele kui ka kultuuri kestlikkusele laiemalt.

Esimesi tulemusi oodatakse poole aasta pärast

Kadri Vare sõnul on EKI meeskond koostöö algust oodanud. «See on väga oluline ja julge samm, et üks meediaväljaanne panustab sel viisil eesti keele teaduslikku ja tehnoloogilisse arengusse. Meil on tehnilised süsteemid valmis ning ootame võimalust andmetega tööle hakata,» lausus ta.

Andmete liikumine ja esmane töötlemine loodetakse ära teha suve jooksul. Seejärel saab EKI kasutada Postimehe materjali keeleuurimises ning eestikeelsete keeletehnoloogiate arendamisel koos teiste kvaliteetsete keeleandmetega.

Kadri Vare loodab, et Postimehe eeskuju julgustab ka teisi meediamaju ja kirjastusi oma arhiive teadusele avama. «Mida kvaliteetsem on meie ühine andmestik, seda paremaid tööriistu saame tulevikus luua. Lõppkokkuvõttes võidavad sellest kõik, kaasa arvatud sisu loojad ise,» võttis ta projekti tähtsuse kokku.

Loe allikat

Lisa kommentaar

Sinu e-postiaadressi ei avaldata. Nõutavad väljad on tähistatud *-ga