Proof News

Zatvori

Neovlašteno korištenje YouTubea za treniranje AI-ja

Istraga je pokazala da su neke od najvećih AI tvrtki na svijetu koristile materijale iz tisuća YouTube videa za obuku AI-ja.

U "pravilima igre" YouTubea, navodi se da nije dopušteno bilo kakvo prikupljanje podataka iz objavljenih filmova bez eksplicitne dozvole.

Kako se čini, mnoge velike kompanije to nisu učinile, već su neovlašteno koristile YouTube filmove za obuku svojih AI modela.

Prema istrazi koju je proveo Proof News, Nvidia, Apple i Anthropic (proizvođač Claude modela), koristili su titlove iz 173.536 YouTube videa, preuzetih s više od 48.000 kanala za obuku svojih AI modela. Kako bi otkrivao YouTube filmove koji su korišteni za obuku AI modela, Proof News je razvio vlastiti alat koji je to u stanju detektirati.

Proof News također je pronašao materijale YouTube zvijezda, uključujući kanale MrBeast (289 milijuna pretplatnika, Marques Brownlee (19 milijuna pretplatnika, Jacksepticeye (31 milijun pretplatnika i PewDiePie (111 milijuna pretplatnika), koji su korišteni za obuku bez dozvole vlasnika kanala, kao što objašnjavaju u ovom videu.

YouTube titlovi ne uključuju video snimke, već se sastoje od običnog teksta titlova videozapisa, zajedno s prijevodima na razne jezike.

Prema istraživačkom radu koji je objavio EleutherAI, skup podataka dio je kompilacije koju je objavila neprofitna organizacija pod nazivom Pile. Programeri Pilea uključili su materijal ne samo s YouTubea, već i s Europskog parlamenta, engleske Wikipedije i mnoštva e-pošte zaposlenika korporacije Enron koja je objavljena kao dio savezne istrage tvrtke.

Apple, Nvidia i Salesforce, tvrtke čija se vrijednost procjenjuje na stotine milijardi dolara, opisuju u svojim istraživačkim radovima i postovima kako su koristile Pile za treniranje umjetne inteligencije. Dokumenti također pokazuju da je Apple koristio Pile za treniranje OpenELM-a, visokoprofilnog modela objavljenog u travnju, tjednima prije nego što je kompanija otkrila da će dodati nove AI mogućnosti iPhoneovima i MacBookovima. Bloombergi Databricks također su trenirali modele na Pile-u, navodi se u publikacijama tvrtki.

Isto je učinio i Anthropic, koji je prikupio 4 milijarde dolara ulaganja od Amazona i promovira "sigurnost umjetne inteligencije" na svojem Claude modelu

"Pile uključuje vrlo mali podskup YouTube titlova", rekla je Jennifer Martinez, glasnogovornica Anthropica, potvrđujući korištenje Pilea u Anthropicovom generativnom AI asistentu Claudeu. "YouTubeovi uvjeti pokrivaju izravnu upotrebu njegove platforme, koja se razlikuje od upotrebe skupa podataka The Pile. Što se tiče mogućih kršenja YouTubeovih uvjeta pružanja usluge, morali bismo vas uputiti na autore The Pile", rekla je Jennifer Martinez.

Predstavnik Nvidije odbio je komentirati ovaj slučaj, kao i predstavnici Applea, Databricksa i Bloomberga koji nisu odgovorili na zahtjeve za komentar slučaja.

Istraživači Proof Newsa smatraju da bi vlasnici kanala i video filmova objavljenih na YouTubeu trebali dobiti neku naknadu od velikih AI tvrtki, čije se poslovanje dobrim dijelom temelji na njihovim materijalima, no zasad nije poznato hoće li ovo pokrenuti nove tužbe protiv AI kompanija.