Andres Aavik: tehisaru ohtude eest kaitseb privaatne keelemudel

Tehisintellekti jõudmine tavainimesele kasutatavale kujule tõi kaasa tohutu majandusmõju, hinnanguliselt 7,9 triljonit dollarit aastas. Tõelisest tehisintellekti (AI) läbimurdest ei saa aga rääkida enne, kui lahendatakse intellektuaalomandi, andmete kontrolli ja turvalisusega seotud küsimused, kirjutab Andres Aavik.

Poolteist aastat tagasi turule toodud esimene tehisintellekti AI-põhine keelemudel Chat GPT pani tehnoloogiasektoris alguse viimaste kümnendite suurimale revolutsioonile. AI-põhiseid lahendusi töötatakse välja kõikjal, nii Fortune 500 suurettevõtetes kui ka kodumaistes idufirmades.

Deloitte’i uuringu järgi usub 94 protsenti ettevõtete tippjuhtidest, et tehisintellektil põhinevad tehnoloogiad on tuleviku edu võti. Ajakirja Fortune andmetel on 92 protsenti Fortune 500 ettevõtetest juba mõne tehisarul põhineva lahenduse kasutusele võtnud.

Reaalsus ei ole siiski ainult värviline. Suuremad teenusepakkujaid OpenAI ja Microsoft kasutavad keelemudeleid Chat GPT ja Copilot treenides intellektuaalomandi kaitse all olevaid materjale ja registreeritud kaubamärke. Võib eeldada, et seda teevad ka teised olulised turuosalised, näiteks Google oma keelemudeliga Gemini (endine Bard).

Intellektuaalomandi küsimus

AI-abimehed ei oleks kaugeltki nii võimekad, kui treeningandmetes kasutataks vaid vabalt kättesaadavat materjali. Näiteks treenivad keelemudeleid fotod ja ajaleheartiklid, mille kasutamine autorilt luba küsimata või litsentsitasu maksmata on keelatud.

Eelmise aasta lõpus esitas The New York Times kohtule hagi, milles väidab, et Microsoft ja OpenAI kasutasid väljaande veebilehel avalikult kättesaadavaid artikleid, et luua tehisintellektil põhinevaid tooteid, mis konkureerivad ja ohustavad ajalehe võimet pakkuda veebipõhist uudisteenust.

Keelemudeleid treenitakse autoriõigustega kaitstud uudiste, artiklite, uurimuste, arvamuslugude, ülevaadete ja muu sisu kaudu, mis teoreetiliselt võimaldab tulevikus tehisarul toota meediasisu.”Kas AI abil loodud pildi autor on keelemudeli kasutaja või fotograafid, kelle loominguga keelemudelit treeniti?”

Suurbritannias süüdistatakse tehisintellektil põhinevat ettevõtet, et see treenis oma fotorobotit pildipanga Getty Images tasulise sisuga. Miks peaks ostma keegi tasulisi fotosid pildipangast, kui analoogse sama kvaliteediga pildi saab palju odavamalt genereerida tehisarul põhineva fotorobotiga? Õhku jääb ka autorluse küsimus. Kas AI abil loodud pildi autor on keelemudeli kasutaja või fotograafid, kelle loominguga keelemudelit treeniti?

Faktikontroll ja andmeleke

Lisaks lahendamata autoriõiguse probleemile takistab keelemudelite tõelist läbimurret andmete korrektsuse küsimus. Kuigi vilunud ülesandepüstitajal õnnestub saada tehisarult aeg-ajalt üsna korrektseid vastuseid, võib keelemudel ka täielikku jama ajada, tuletades või kasutades väljamõeldud fakte sündmustest, mida pole kunagi toimunud.

Kõik praegu avalikuks kasutamiseks kättesaadavad keelemudelid – nii tasuta kui ka tasulised – eksivad rängalt. Neid ei saa kasutada tõe allikana ja kõik saadud vastused vajavad pädeva inimese topeltkontrolli.

Kolmas oluline risk on konfidentsiaalsete andmete leke. Kas töötaja X, kes kasutab keelemudelit (või ka Google’i tõlki) näiteks lepingu tõlkimiseks, adub, et iga sisestatud päring ja infokild võib treenida ka keelemudelit? Teoreetiliselt on võimalik, et järgmistele kasutajatele vastust koostades kasutab AI-keelemudel muuhulgas ka tema sisestatud lepingus sisalduvat informatsiooni.

Ilmselt kasutatakse igas ettevõttes AI-d. Keegi kasutab keelemudelit tõlgina, teine vajab abi teksti kokkuvõtmisel, kolmas laseb koostada slaide või mõne illustreeriva materjali. Iga juht peaks võtma eelduseks, et keegi kolleegidest kasutab tehisaru oma igapäevatöös, ka siis, kui ametliku töövahenditena pole seda võimalust välja pakutud.

Kui konfidentsiaalset lepingut, aruannet või isikuandmeid ükski töötaja tõenäoliselt avalikult ei jagaks, siis tehisintellekti keelemudelit ei teadvustata avalikuna. Keelemudeliga suhtlemisest on saanud paljude inimeste jaoks uus “guugeldamine”, mis annab kiirelt vastuse ükskõik millisele küsimusele.

Erinevus on selles, et kui otsingumootorisse sisestatakse eelkõige märksõnu ja küsimusi, siis keelemudelile antakse lisaks analüüsida ka suuri andmemahtusid. Seejuures ei aduta riski, et järgmine kasutaja saab oma vastuse juba eelmise sisestatud andmetega targemaks treenitud tehisabiliselt.

Lahendus on privaatne keelemudel

Riskide minimeerimiseks võtab üha rohkem suurettevõtteid kasutusele privaatseid keelemudeleid.

Ettevõttesiseseks kasutamiseks luuakse sõltumatu AI-l põhinev keelemudel, mille treenimisel kasutatakse vaid majasiseseks kasutamiseks mõeldud kontrollitud andmeid, millele on omandatud ka autoriõigused. Sisestatud info, materjalid ja muud andmed ei liigu ettevõttest välja. Eestis tegutsevatest rahvusvahelistest ettevõtetest kasutavad selliseid mudeleid teadaolevalt näiteks Deloitte ja Telia.

Privaatne keelemudel lahendab nii juriidika, andmete kontrolli kui ka turvalisuse probleemi. Privaatsete lahenduste laialdasema kasutuselevõtu takistuseks on aga ülesseadmise ja opereerimise kõrge hind, kuigi vajalikku riistvara saab ostmise alternatiivina ka suhteliselt mõistliku hinnaga rentida.

Privaatne keelemudel areneb aeglasemalt, sest AI õpib kiiremini ja annab relevantsemaid vastuseid, kui kasutab avalikke andmeid, allikad pole piiratud ja kasutajaid on võimalikult palju. Majasiseselt ei saa panna miljardeid aastas arendustegevusse nagu teevad suurettevõtted Microsoft, OpenAI ja Google Copiloti, Chat GPT või Gemini arendamisel.

Euroopa Liit töötab välja AI vastutuse direktiivi, mille eesmärk on tugevdada tehisintellektil põhinevate lahenduste tekitatud kahju kannatanud isikute õiguskaitset. Direktiiv üritab tagada, et põhjendatud nõudeid ei takistaks tõendamisraskused ja et üksikisikul oleks võrdne võimalus saada hüvitist, sõltumata sellest, kas kahju põhjustas teine inimene, asutus või tehisintellekt.

World Economic Forumi tuleviku töökohtade raportis hinnati, et juba järgmiseks aastaks võib AI asendada kuni 85 miljonit töökohta. Tehisaru loob samaks ajaks juurde hinnanguliselt 97 miljonit uut töökohta. Uued ametid on teistsugused ja tõhusamaid, aga inimene on endiselt kõige olulisem komponent.

Artikkel on ilmunud ERR uudisteportaalis 21.04.2024: https://www.err.ee/1609318644/andres-aavik-tehisaru-ohtude-eest-kaitseb-privaatne-keelemudel

Andres Aavik: tehisaru ohtude eest kaitseb privaatne keelemudel

Seotud artiklid

Flowit osaleb EIS ettevõtte arenguprogrammis

Kuidas keerulistel aegadel konkurentidest ette jõuda?

Flowit ja K-Projekt toovad turule unikaalse projektijuhtimistarkvara arhitektuuri- ja inseneribüroodele