Google

Zatvori

Gemini 1.5 je AI model sljedeće generacije

Novi AI model pruža dramatično poboljšane performanse i razumijevanju dugog konteksta u svim modalitetima.

Alphabetov i Googleov CEO Sundar Pichai, na službenom Googleovom blogu predstavio je novi model generativne umjetne inteligencije Gemini 1.5, za koji kaže da je najsposobniji i posebno ističe veliki napredak u razumijevanju dugog konteksta.

"Uspjeli smo značajno povećati količinu informacija koje naši modeli mogu obraditi, do 1 milijun tokena, postižući najdulji kontekstni prozor od bilo kojeg temeljnog modela velikih razmjera dosad", navodi Pichai i dodaje kako je prvi izdani model nove Gemini 1.5 generacije Gemini 1.5 Pro.

Tokeni o kojima priča Googleov šef, predstavljaju "građevne blokove" koji se koriste za obradu informacija u "kontekstnom prozoru". Tokeni mogu biti cijeli ili sastavni dijelovi riječi, slika, videa, zvuka ili koda. Što je veći kontekstni prozor modela, to više informacija može primiti i obraditi u određenom odzivu, što njegov rezultat čini dosljednijim, relevantnijim i korisnijim.

"Kroz niz inovacija strojnog učenja, povećali smo kapacitet kontekstnog prozora 1.5 Pro daleko iznad originalnih 32.000 tokena za Gemini 1.0. Sada možemo pokrenuti do 1 milijun tokena", dodaje Pichai.

Demis Hassabis, izvršni direktor Google DeepMinda, kaže da je Gemini 1.5 multimodalni model srednje veličine, optimiziran za skaliranje u širokom rasponu zadataka, koji radi na sličnoj razini kao 1.0 Ultra, dosadašnji najveći Googleov AI koji uvodi revolucionarnu eksperimentalnu značajku u razumijevanju dugog konteksta.

Usporedba količine Tokena s drugim AI modelima

Gemini 1.5 Pro dolazi sa standardnim kontekstnim prozorom od 128.000 tokena, no ograničena skupina programera i poslovnih korisnika može ga isprobati s kontekstnim prozorom do 1 milijun tokena putem AI Studija i Vertex AI-ja.

"Dok uvodimo cijeli kontekstni prozor od milijun tokena, aktivno radimo na optimizacijama kako bismo poboljšali latenciju, smanjili računalne zahtjeve i poboljšali korisničko iskustvo. Uzbuđeni smo što će ljudi isprobati ovu revolucionarnu mogućnost", kaže Hassabis.

Gemini 1.5 je izgrađen na temelju DeepMindovog istraživanja o Transformer i MoE arhitekturi. Dok tradicionalni Transformer funkcionira kao jedna velika neuronska mreža, MoE modeli su podijeljeni na manje "stručne" neuronske mreže.

Ovisno o vrsti danog unosa, MoE modeli uče selektivno aktivirati samo najrelevantnije stručne putove u svojoj neuronskoj mreži. Ova specijalizacija značajno povećava učinkovitost modela. Google je rani usvojitelj i pionir tehnike MoE za dubinsko učenje kroz istraživanja kao što su Sparsely-Gated MoE, GShard-Transformer, Switch-Transformer, M4 i više.

Najnovije inovacije u arhitekturi modela omogućuju Geminiju 1,5 puta brže učenje složenih zadataka i održavanje kvalitete, dok je učinkovitiji za obuku i posluživanje.

To znači da 1.5 Pro može obraditi ogromne količine informacija odjednom, uključujući 1 sat videa, 11 sati zvuka, baze kodova s preko 30.000 redaka koda ili preko 700.000 riječi, a Hassabis kaže da su u istraživanju također uspješno testirali do 10 milijuna tokena.

Prema Googleu, sve ovo omogućuje da 1.5 Pro može analizirati, klasificirati i sažeti velike količine sadržaja unutar danog odziva. "Na primjer, kada se dobiju transkripti od 402 stranice misije Apolla 11 na Mjesec, može se zaključiti o razgovorima, događajima i detaljima koji se nalaze u dokumentu", kao što možete vidjeti u ovom videu.

Nadalje, 1.5 Pro može obavljati visoko sofisticirane zadatke razumijevanja i razmišljanja za različite modalitete, uključujući video.

Na primjer, kada mu se da 44-minutni nijemi film Bustera Keatona , model može točno analizirati različite točke zapleta i događaje, pa čak i razmišljati o malim detaljima u filmu koji bi se lako mogli propustiti.

Također može obavljati relevantnije zadatke rješavanja problema preko dužih blokova koda. Kada dobije upit s više od 100.000 redaka koda, može bolje razmišljati o primjerima, predložiti korisne izmjene i dati objašnjenja o tome kako funkcioniraju različiti dijelovi koda.

Gemini 1.5 Pro također pokazuje vještine "učenja u kontekstu", što znači da može naučiti novu vještinu iz informacija danih u dugom upitu, bez potrebe za dodatnim finim podešavanjem. Google kaže kako su testirali ovu vještinu na mjerilu strojnog prijevoda iz jedne knjige, kako bi se uvjerili koliko dobro model uči iz informacija koje nikada prije nije vidio. Kada dobije gramatički priručnik za 'kalamang', jezik s manje od 200 govornika diljem svijeta, model uči prevoditi engleski na kalamang na sličnoj razini kao osoba koja uči iz istog sadržaja.

Google već nudi ograničeni pregled 1.5 Pro programerima i poslovnim korisnicima putem AI Studija i Vertex AI-ja, a 1.5 Pro sa standardnim kontekstnim prozorom od 128.000 tokena će predstaviti kada model bude spreman za šire izdanje.

Rani testeri mogu isprobati prozor konteksta od 1 milijun tokena bez ikakvih troškova tijekom razdoblja testiranja, iako bi trebali očekivati duže vrijeme kašnjenja s ovom eksperimentalnom značajkom.

Programeri zainteresirani za testiranje 1.5 Pro mogu se sada prijaviti u AI Studio, dok se poslovni korisnici mogu obratiti svom Vertex AI korisničkom timu.

Saznajte više o mogućnostima Geminija i pogledajte kako radi na ovoj poveznici.