Velika zbiralna akcija besed za slovenski chatgpt

Za gradnjo slovenskega jezikovnega modela potrebujejo besedila v obsegu 40 milijard besed. Opozorila glede avtorskih pravic in posledic umetne inteligence.

Galerija

Pri zbiranju besedil lahko sodelujejo tudi tisti, ki imajo morda manj besedil, a želijo kljub temu prispevati h gradnji jezikovnega modela za slovenščino. FOTO: Nicolas Maeterlinck Belga/Reuters

Simona Bandur

17. 9. 2024 | 05:00

10:07

A+A-

V bazi velikega jezikovnega modela za slovenščino je zdaj 9,2 milijarde besed, da bi oblikovali model, primerljiv z drugimi svetovno znanimi, jih potrebujejo približno 40 milijard. Zato so na portalu Povejmo.si zagnali veliko zbiralno akcijo pisnih in govorjenih besedil v slovenščini. Kot številni drugi projekti, ki temeljijo na umetni inteligenci, se tudi pri tem porajajo številni pomisleki ter predvsem pravna, etična in tehnična vprašanja, o katerih so govorili na včerajšnji javni razpravi na Fakulteti za računalništvo in informatiko Univerze v Ljubljani. Razmisliti moramo, kaj nekaj, kar zdaj razvijamo, lahko pomeni v prihodnosti, je med drugim opozoril Marko Milosavljević s Fakultete za družbene vede.

Dolgoročni raziskovalni projekt Prilagodljiva obdelava naravnega jezika s pomočjo velikih jezikovnih modelov, krajše PoVeJMo, katere glavni financer je javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost (Aris), se je začel pred približno enim letom. Njegov cilj je, kot pove že ime, razvoj odprtega velikega jezikovnega modela za slovenščino, torej nekakšnega slovenskega chatgpt, ki bo odprt in podlaga za napredne aplikacije v medicini, humanistiki, industrijskem okolju in pri razvoju programske opreme, napovedujejo v projektu.

Da bo slovenščina živela tudi v digitalni dobi

Do zdaj so vanj zajeli vsa odprto dostopna besedila v slovenskem jeziku, objavljena na spletu, in s tem prišli do baze 9,2 milijarde besed, potrebovali pa bi jih okoli 40 milijard. »Zdaj smo pred izzivom, ali zmoremo zbrati tolikšne količine besedil, ki bi bile primerljive s količinami, s kakršnimi razpolagajo jeziki skandinavskih in baltskih držav,« je dejal vodja progama PoVeJMo Simon Krek s fakultete za računalništvo in informatiko. In prav tako pomembno, nemara še bolj, je tudi vprašanje, ali zaradi zaščite avtorskih pravic lahko zberejo tista besedila, ki že obstajajo. Tudi zato so se, kot je še povedal Krek, odločili, da imetnike avtorskih pravic nagovorijo, da jim sami prispevajo besedila, med njimi tako velike institucije, ki hranijo večje zaloge besedil, kakršne so knjižnice, mediji, založbe, šole ..., kot tudi sleherniki, ki jih imajo morda manj, a kljub temu želijo prispevati h gradnji jezikovnega modela za slovenščino.

Več besedil, boljša slovenščina

Marko Robnik Šikonja, ki skrbi za tehnično izvedbo PoVeJMo, je za primerjavo navedel zaloge besedil, s kakršnimi razpolagajo veliki korporativni sistemi. »Pred kratkim je izšel veliki jezikovni model podjetja Meta Lama 3.1., za njegovo učenje so potrebovali približno 3000 milijard besed.« Robnik Šikonja sicer verjame, da bodo v Sloveniji zbrali 40 milijard besed, vendar pa to ni nujni pogoj za izpeljavo programa. Tudi na podlagi 10 milijard model lahko naučijo govoriti slovensko, bi pa potrebovali več, da bi jezik govoril bolje. Prav tako je že zdaj jasno, da ni dovolj besedil za posamezna področja, zato jih bo treba prevesti, predvsem na področjih strojništva in računalništva, kot je navedel za primer.

Slabost drugih jezikovnih modelov je, da so pogosto razviti in optimizirani za angleščino ali druge večje jezike, so prepričani avtorji projekta. FOTO: Jaap Arriens Nurphoto/Afp

Ne glede na to, da se govorci večinoma in tudi poslušalci razprave v kratki anketi strinjali, da potrebujemo veliki jezikovni model za slovenščino, je ta povezan s številnimi pomisleki. Zelo dobro jih je v uvodu ubesedila moderatorka razprave Špela Arhar Holdt, sicer koordinatorka zbiranja besedila in raziskovalna sodelavka na fakulteti računalništvo in informatiko: »Slovenski jezik je v svoji zgodovini doživel številne prelomnice, gradnja jezikovnega modela je prav gotovo ena izmed njih, vendar pa ta prvič v zgodovini na simbolen način od nas zahteva, da svoj jezik predamo stroju, da bi ga lahko od tega stroja potem dobili nazaj.«

Strokovnjakinja za avtorsko pravo Maja Bogataj Jančič je poudarila, da je grajenje takšnega modela koristno in nujno, hkrati pa tudi priložnost za razmislek na ravni družbe. »To bi lahko bil primer dobre prakse, ko se družba odloči, da bo gradila jezikovni model, v nasprotju s korporacijami.« Kot je razvidno tudi iz tega primera, je velik izziv, kako dobiti več kakovostnih podatkov, na katerih se umetna inteligenca trenira. Pri tem ni ovira le omejen nabor besedil, kot v primeru slovenščine, ampak tudi avtorske pravice, ki lahko vplivajo na to, ali bo jezikovni model bolje ali slabše govoril slovensko.

To bi lahko bil primer dobre prakse, ko se družba odloči, da bo gradila jezikovni model, v nasprotju s korporacijami.

Maja Bogataj Jančič

Pravno okolje je po njeni oceni na splošno sicer prijazno za generiranje velikih jezikovnih modelov tako za komercialne in nekomercialne namene, se pa tudi na tem področju dogajajo spremembe in potekajo hudi lobistični boji. »Umetna inteligenca lahko prinaša velike rešitve, a hkrati velike probleme. A človek je tisti, ki odloča o tem,« je spomnila Maja Bogataj Jančič, med drugim ustanoviteljica in vodja Inštituta za intelektualno lastnino.

Ines Vodopivec iz Narodne univerzitetne knjižnice, ki je z največjim naborom gradiva tudi idealni besedilodajalec, je omenila dve oviri, ki ju je treba premagati, prva je zakonska omejitev, ki določa dostop do nekaterih del na lokaciji knjižnice, druga pa je dejstvo, da številna besedila še niso digitalizirana, zlasti iz obdobja novejše zgodovine. Marko Milosavljević s Fakultete za družbene vede UL je dodal, da prav tako na spletu ni številnih starejših besedil slovenskih medijev.

Širša družbena odgovornost

Milosavljević je poleg na pomembno skrb za avtorske in tudi osebnostne pravice opozoril na posledice, ki jih umetna inteligenca prinaša družbi: »Na ogromno vprašanj še ni odgovorov, zdi se, kakor da smo se vrgli v vodo, ne da bi sploh vedeli, kako globoka je, ali je zastrupljena, ali v njej plavajo morski psi ...« Veliki jezikovni modeli morda ne predstavljajo grožnje za varnost, se pa prav lahko zgodi, da bodo urednik ali lastnik medija naročil algoritmu: 'Naredi mi komentar o Gazi v slogu Ervina Hladnika Milharčiča in ga zaključi v slogu Boštjana Videmška', je navedel kot primer.

Nacionalni modeli bolje upoštevajo lokalne kulturne specifike in navade, kar je pomembno za ustrezno in učinkovito komunikacijo. FOTO: Dado Ruvić/Reuters

Prav tako je opozoril na nevarnost izgube delovnih mest; za zdaj je to aktualno na področju ustvarjanja, novinarstva, odnosov z javnostmi, oglaševanja ..., se bo pa gotovo širilo na druga področja. Zato je pozval k širši družbeni razpravi, tudi zaradi velikih razlik v uporabi takšnih modelov: eno je znanstvena raba v nekomercialne razmere, na drugi strani so korporacije. »Razmisliti moramo, kaj nekaj, kar zdaj razvijamo, lahko pomeni v prihodnosti. Lahko se zgodi, da bo čez deset let to postala korporativna zasebna zadeva,« je opozoril Milosavljević.

Marko Robnik Šikonja se je ob teh opozorilih vprašal, kaj je družbeno koristno. »Mi bomo zgradili model, ki bo prosto dostopen, tudi podjetjem. Podpiramo širšo skupnost, tudi slovenska podjetja.« Simon Krek je prav tako poudaril, da gre za odprt model, pri katerem se mora vsak, ki prispeva besedila, zavedati, da bodo iz teh podatkov lahko črpali vsi, tudi podjetja, in ne le naša, tudi tuja. »S tem omogočamo vsemu svetu, na primer japonskemu podjetju, da bo med jezike, ki jih lahko podpre, vključil tudi slovenščino.«

Vsako besedilo šteje

Vsi, ki želijo sodelovati v zbiralni akciji besed za projekt PoVeJMo, lahko pošljejo besedila, za katera imajo avtorske pravice, piše na spletni strani Povejmo.si, kjer akcija poteka pod geslom Vsaka besedilo šteje! Po šifriranju in varni hrambi gradiva bodo besedila najprej pretvorili v enotni, digitalni format, nato jih strojno anonimizirali, s čimer bodo iz njih odstranili oziroma zakrili osebne prepoznavne informacije in tako zaščitili zasebnost avtorjev besedil. Za učinkovito treniranje in delovanje bodo besedila razbili na manjše dele (stavke, besede ali celo znake), odstranili podvojene dele, nato pa s temi podatki naučili jezikovni model.

Glede na to, da nekateri mednarodni veliki jezikovni modeli že vsebujejo slovenska besedila, je vprašanje, ki se prav tako postavlja, zakaj potrebujemo svojega oziroma kaj lahko ta ponudi, česar drugi, denimo chatgpt, ne morejo. »Res je, katerakoli korporacija lahko s spleta pobere besedila v slovenščini in jih uporabi, toda če takšen jezikovni model naredimo sami, smo neodvisni od njihovih samovoljnih odločitev, sami lahko odločamo, komu bo na voljo, ga ciljno in transparentno razvijamo, nadzorujemo kakovost vhodnih besedila ...« je nekaj razlogov navedla Špela Arhar Holdt. Slabost drugih modelov je prav to, da so pogosto razviti in optimizirani za angleščino ali druge večje jezike.