PREMIUM

Panda na bendžu, nato pa OpenAI predstavi soro in stvari postavi na glavo

Strojno učeni algoritmi z navdušujoče hitrimi koraki napredujejo tudi pri ustvarjanju gibljivih sličic.

Galerija

Trajanje lumierovih posnetkov je omejeno na skupno pet sekund. To je za zdaj skrajni domet takšne tehnologije, kadri so zelo kratki in enostavni, denimo brez vstopanja novih oseb v sceno. Foto Lumiere

Jurij Kristan

16. 2. 2024 | 08:00

16. 2. 2024 | 11:26

12:55

A+A-

V nadaljevanju preberite:

Konec januarja so pri Googlu razkrili algoritem lumiere, najmodernejšo izvedenko strojno učenega programja za generiranje videa. Na zaslonih so oživeli plišasti medvedek na kotalkah, slon med poplesovanjem pod vodo in opica pri branju novic ob jutranji kavi.

Motivi na lumierovih sličicah nas danes ne presunejo več tako zelo, saj smo jih v podobnih oblikah v zadnjih letih videli že mnogokrat. Toda orodje je brez dvoma velik korak naprej, ko gre za prepričljivost in zveznost gibanja živali v teh animacijah. Plavajočo želvo iz lumierovega demonstracijskega repertoarja bi mirne duše lahko označili za dejanski dokumentarni posnetek in ne umetno animacijo, ustvarjeno s tekstovnim ali slikovnim ukazom (text-to-video in image-to-video). Na ta način so namreč vsi ti motivi rojeni: uporabnik lahko od programa podobo animacije zahteva z besedami ali pa predloži še vzorčno sliko. Vse drugo naredi računalnik, približno tako, kot to počno generatorji slik midjourney, dall-e in podobni. Enako kot ustvarjanje statičnih slik se tudi področje gibljivih razvija s silovito naglico, saj smo prve resne poskuse videli ne več kot poldrugo leto nazaj.

Sora prehiteva po desni

Medtem pa je OpenAI – vodilno podjetje na tem področju, znova poskrbelo za veliko presenečenje. Predstavilo je namreč model sora, ki pa je za razliko od modelov, opisanih v članku, na precej višjem nivoju zmogljivosti – iz tekstovnih navodil je model namreč sposoben sestaviti izjemne realistične posnetke, dolge do minute. Še včeraj se je zdelo, da je tehnologija »text to video« na ravni nekaj sekund, OpenAI pa je dvignil letvico za kar precej.

Poleg tega lahko njihov model zgenerira posnetke, v katerih nastopa več oseb oziroma živali ali izmišljenih animiranih karakterjev, premiki niso videti popačeno, izjemno podrobno je tudi ozadje. »Model ne razume le ukaza uporabnika, ampak tudi to, kako je to dejansko videti v resničnem svetu,« so zapisali v blogu.

Seveda pa model še ni povsem dovršen. Še vedno se pri ustvarjanju posnetka, na katerem bi uporabnik želel kompleksne premike, zgodijo nelogičnosti in popačenja, oseba dobi povsem nenaraven videz, zgodi se tudi, da predmet povsem izgine, so pri OpenAI pojasnili v zapisu.

A nekateri predstavljeni posnetki so tako dobri, da bi brez težav zmedli uporabnike interneta, da bi jih imeli za resnične prizore, posnete s telefonom ali kamero.

Vpliv takšnih modelov na svet bi bil lahko precejšen. S takšno tehnologijo bi bilo lahko ustvarjanje globokih ponaredkov (deepfake) izjemno poenostavljeno, hkrati pa bi bilo to izjemno orodje za filmske ustvarjalce. Pri OpenAI so pojasnili, da je sora še v delu, da se zavedajo njenih pomanjkljivosti, denimo, da model ne razume koncepta »vzroka in posledice«. Kot primer so navedli, da je karakter ugriznil v piškot, piškot pa nato ni bil odgriznjen.

Pri ameriškem podjetju so še napovedali, da se zavedajo nevarnosti, ki jih takšni modeli prinašajo s seboj, zato bodo z ekipo strokovnjakov preučili, kako zagotoviti, da bodo dezinformacije, ustvarjene s tem modelom, jasno prepoznavne. Sora za zdaj še ne bo javno dostopna, namenjena bo ozkemu krogu strokovnjakov in ustvarjalcev, da bodo zbrali odzive in model še izboljšali.