MIT
VIDEO: Algoritam predviđa vaše interakcije
Algoritam MIT-a u stanju je unaprijed prepoznati što ćete učiniti kroz neko kratko vrijeme.
Znanstvenici MIT-ovog CSAIL laboratorija (Computer Science and Artificial Intelligence Lab), odlučili su svojem "deep learning" algoritmu omogućiti predviđanje ljudskih akcija pri interakciji s drugim osobama.
Kada se dvije osobe sretnu, ljudima nije teško predvidjeti da će se rukovati, zagrliti ili čak poljubiti, a ta naša sposobnost predviđanja temelji se na dugogodišnjem iskustvu.
Kada su računala ili roboti u pitanju, njima to predstavlja vrlo kompleksnu zadaću, pa su znanstvenici odlučili nešto učiniti kako bi umjetna inteligencija dobila novu značajku koja će joj pomoći u navigaciji u ljudskom okruženju, aktiviranju sustava upozorenja uoči neke moguće opasnosti, ili u sustavima poput Google Glassa koji će vam predlagati što činiti u određenoj situaciji.
Znanstvenici CSAIL-a kažu da su napravili veliki korak u razvoju "predvidljive vizije" (predictive vision), razvivši algoritam koji može predviđati ljudske interakcije bolje od bilo kojeg drugog sustava umjetne inteligencije do sada.
Kako bi naučili AI o tome "što slijedi", znanstvenici su ga nahranili YouTube videima i TV serijama koje uključuju "Kućanice" i "U uredu", iz kojih je trebao unaprijed prepoznati kada će se dvije osobe zagrliti, poljubiti, rukovati ili si "dati pet".
U drugom scenariju računalo je učilo kako predvidjeti koji će se objekt pojaviti u sceni videa nakon 5 sekundi.
Mada algoritam nije uspio svaki puta savršeno pogoditi što će uslijediti, postizao je prilično dobre rezultate, kao što možete vidjeti u ovom videu.
Za razliku od dosadašnjih sustava predviđanja koji su se temeljili na analizama svakog piksela u određenoj sceni, što je vrlo sporo, kompleksno i nepraktično, CSAIL je kreirao algoritam koji može predviđati "vizualne prezentacije" koje u osnovi predstavljaju "smrznute slike" koje prikazuju različite inačice onoga što bi scena mogla predstavljati.
"Umjesto da mu kažete da je jedan piksel plavi a drugi crveni, vizualne reprezentacije otkrivaju informacije o puno široj slici, poput određene kolekcije piksela koji predstavljaju ljudsko lice", navodi doktorand Carl Vondrick, prvi autor znanstvenog rada koji je predstavljen na međunarodnoj CVPR konferenciji (International Conference on Computer Vision and Pattern Recognition).
SCAIL-ov algoritam stoga koristi tehniku "dubokog učenja" (deep-learning), vrstu umjetne inteligencije koja koristi takozvane neuralne mreže za uvježbavanje računala da iz masivne količine podataka samo prepoznaje određene uzorke.
Nakon što su trenirali algoritam sa 600 sati videa, tim ga je testirao na novim video filmovima koji su prikazivali akcije i objekte.
Algoritam je bio u stanju prepoznati akcije u 43 posto slučajeva, što je bolje od do sada najboljih algoritama koji su bili uspješni u najviše 36%.
U drugoj studiji algoritmu su prikazali isječak iz videa i zatražili ga da predvidi koji će se objekt pojaviti nakon 5 sekundi. Na primjer, ako je netko otvorio mikrovalku, to bi moglo sugerirati da će izvući šalicu kave. U tome se pokazao za 30 posto uspješnijim od dosadašnjih algoritama, no rezultat od 11 posto uspješnosti još je daleko od ljudskog predviđanja koje je točno u 71 posto slučajeva.
Znanstvenike to ne zabrinjava jer smatraju kako postoji još puno prostora za učenje o razumijevanju i predviđanju ljudskih interakcija, pa Vondrick vjeruje da će njihov algoritam uskoro moći predviđati puno kompleksnije stvari.
Mada znanstvenici za sada još ne planiraju nikakvu praktičnu uporabu algoritma, smatraju da će buduće inačice biti korisne za primjenu u robotima koji će razvijati bolje akcijske planove, kao i u nadzornim kamerama koje će moći predviđati moguće nesreće i obavještavati hitne službe puno brže kada netko padne ili se ozlijedi.
Izvor: MIT
Učitavam komentare ...