ImageBind

Zatvori

Metin open source AI oponaša ljudsku percepciju

Novi model umjetne inteligencije može povezivati informacije iz šest modaliteta, ne samo za tekst, sliku/video i audio, već i za senzore koji bilježe dubinu (3D), toplinu (infracrveno zračenje) i inercijalne mjerne jedinice (IMU).

Meta je razvila open source AI alat pod nazivom ImageBind koji predviđa veze između podataka slično načinu na koji ljudi percipiraju ili zamišljaju okoliš. Dok generatori slika kao što su Midjourney, Stable Diffusion i DALL-E 2 donose spajanje riječi sa slikama, omogućujući vam stvaranje vizualnih scena na temelju tekstualnog opisa, ImageBind može povezivati tekst, slike/videozapise, audio, 3D mjerenja (dubinu), podatke o temperaturi i podatke o kretanju (iz inercijskih mjernih jedinica IMU-a), a sve to radi bez potrebe da se prije toga uvježbava za svaku od tih stvari.

"Kad ljudi upijaju informacije iz svijeta, urođeno se koristimo višestrukim osjetilima, poput gledanja prometne ulice i zvuka motora automobila. Danas predstavljamo pristup koji dovodi strojeve jedan korak bliže ljudskoj sposobnosti da uče istovremeno, holistički i izravno iz mnogih različitih oblika informacija, bez potrebe za eksplicitnim nadzorom. Izgradili smo i koristimo ImageBind otvorenog koda, prvi model umjetne inteligencije koji može povezivati informacije iz šest modaliteta. Model uči jedinstveni prostor za ugradnju ili zajednički prikazni prostor, ne samo za tekst, sliku/video i audio, već i za senzore koji bilježe dubinu (3D), toplinu (infracrveno zračenje) i inercijalne mjerne jedinice (IMU), koje izračunavaju kretanje i položaj. ImageBind oprema strojeve holističkim razumijevanjem koje povezuje objekte na fotografiji s načinom na koji će zvučati, njihovim 3D oblikom, koliko su topli ili hladni i kako se kreću.

ImageBind može nadmašiti prethodne specijalizirane modele obučene pojedinačno za jedan određeni modalitet, ali što je najvažnije, pomaže unaprijediti umjetnu inteligenciju omogućujući strojevima da zajedno bolje analiziraju mnoge različite oblike informacija.

Na primjer, koristeći ImageBind, Metin Make-A-Scene može stvoriti slike iz zvuka, poput stvaranja slike temeljene na zvukovima kišne šume ili tržnice. Druge buduće mogućnosti uključuju točnije načine za prepoznavanje, povezivanje i moderiranje sadržaja te za jačanje kreativnog dizajna, kao što je neprimjetno generiranje bogatijih medija i stvaranje širih multimodalnih funkcija pretraživanja.

ImageBind dio je Metinih napora da stvori multimodalne AI sustave koji uče iz svih mogućih vrsta podataka oko sebe. Kako se broj modaliteta povećava, ImageBind otvara vrata za istraživače da pokušaju razviti nove, holističke sustave, kao što je kombiniranje 3D i IMU senzora za dizajn ili iskustvo impresivnih, virtualnih svjetova. ImageBind također može pružiti bogat način za istraživanje uspomena — traženje slika, video zapisa, audio datoteka ili tekstualnih poruka koristeći kombinaciju teksta, zvuka i slike", piše Meta AI u svojem blogu.

Među primjerima koje ističu je generiranje zvuka iz fotografija i videa, što znači da ImageBind može generirati zvukove koji odgovaraju onome što se nalazi na slikama ili u videu, pa će primjerice fotografiji psa dodijeliti lavež, tigru režanje, vlaku zvukove kretanja tračnicama i sirene, dok će fotografiji na kojoj se vidi savijanje grana u šumi dodati fijuk vjetra.

Meta AI je povodom ovoga objavio studiju "ImageBind: One Embedding Space To Bind Them All" koju možete pronaći na ovoj poveznici.