MIT
AI za brzo izračunavanje 3D genomskih struktura
Novi pristup, za koji su potrebne minute, a ne dani, predviđa kako će se određeni slijed DNK rasporediti u jezgri stanice.
Svaka stanica u vašem tijelu sadrži isti genetski niz, ali svaka stanica izražava samo podskup tih gena. Ovi obrasci ekspresije gena specifični za stanicu, koji osiguravaju da se stanica mozga razlikuje od stanice kože, djelomično su određeni trodimenzionalnom strukturom genetskog materijala, koja kontrolira dostupnost svakog gena.
Kemičari s MIT-a sada su došli do novog načina za određivanje tih 3D struktura genoma, koristeći generativnu umjetnu inteligenciju. Njihova tehnika može predvidjeti tisuće struktura u samo nekoliko minuta, što je čini mnogo bržom od postojećih eksperimentalnih metoda za analizu struktura.
Koristeći ovu tehniku, istraživači bi mogli lakše proučavati kako 3D organizacija genoma utječe na obrasce i funkcije ekspresije gena pojedinih stanica.
"Naš je cilj bio pokušati predvidjeti trodimenzionalnu strukturu genoma iz temeljne sekvence DNK", kaže Bin Zhang, izvanredni profesor kemije i stariji autor studije. "Sada kada to možemo učiniti, što ovu tehniku stavlja u rang s najsuvremenijim eksperimentalnim tehnikama, doista može otvoriti puno zanimljivih prilika."
Unutar stanične jezgre, DNK i proteini tvore kompleks koji se zove kromatin, koji ima nekoliko razina organizacije, što omogućuje stanicama da strpaju 2 metra DNK u jezgru promjera samo jednu stotinku milimetra. Dugi nizovi DNK vijugaju oko proteina koji se nazivaju histoni, stvarajući strukturu poput perli.
Kemijske oznake poznate kao epigenetske modifikacije mogu se pričvrstiti na DNK na određenim mjestima, a te oznake, koje se razlikuju ovisno o vrsti stanice, utječu na savijanje kromatina i dostupnost obližnjih gena. Ove razlike u konformaciji kromatina pomažu odrediti koji se geni izražavaju u različitim tipovima stanica ili u različitim vremenima unutar određene stanice.
Tijekom proteklih 20 godina znanstvenici su razvili eksperimentalne tehnike za određivanje strukture kromatina. Jedna široko korištena tehnika, poznata kao Hi-C, djeluje tako da povezuje susjedne DNK lance u jezgri stanice. Istraživači tada mogu odrediti koji se segmenti nalaze jedan blizu drugoga usitnjavanjem DNK u mnogo sitnih komadića i sekvenciranjem.
Ova se metoda može koristiti na velikim populacijama stanica za izračunavanje prosječne strukture za dio kromatina ili na pojedinačnim stanicama za određivanje struktura unutar te specifične stanice. Međutim, Hi-C i slične tehnike su radno intenzivne i može potrajati oko tjedan dana da se generiraju podaci iz jedne ćelije.
Kako bi nadvladali ta ograničenja, Zhang i njegovi studenti razvili su model koji iskorištava nedavna dostignuća u generativnoj umjetnoj inteligenciji za stvaranje brzog i preciznog načina za predviđanje struktura kromatina u pojedinačnim stanicama. Model umjetne inteligencije koji su dizajnirali može brzo analizirati sekvence DNK i predvidjeti strukture kromatina koje bi te sekvence mogle proizvesti u stanici.
ChromoGen, model koji su istraživači izradili, ima dvije komponente. Prva komponenta, model dubokog učenja koji je naučen da "čita" genom, analizira informacije kodirane u osnovnoj sekvenci DNK i podatke o dostupnosti kromatina, od kojih je potonji široko dostupan i specifičan za vrstu stanice.
Druga komponenta je generativni AI model koji predviđa fizički točne konformacije kromatina, koji je uvježban na više od 11 milijuna konformacija kromatina. Ovi su podaci dobiveni iz eksperimenata koji su koristili Dip-C (varijantu Hi-C) na 16 stanica iz linije ljudskih B limfocita.
Kada se integrira, prva komponenta informira generativni model kako okolina specifična za tip stanice utječe na formiranje različitih struktura kromatina, a ova shema učinkovito bilježi odnose sekvencija-struktura. Za svaki niz, istraživači koriste svoj model kako bi generirali mnoge moguće strukture. To je zato što je DNK vrlo nesređena molekula, tako da jedna sekvenca DNK može dovesti do mnogo različitih mogućih konformacija.
Jednom obučen, model može generirati predviđanja na mnogo bržem vremenskom rasponu nego Hi-C ili druge eksperimentalne tehnike.
"Dok biste mogli provesti šest mjeseci izvodeći eksperimente kako biste dobili nekoliko desetaka struktura u određenoj vrsti ćelije, možete generirati tisuću struktura u određenoj regiji s našim modelom u 20 minuta na samo jednom GPU-u", kažu znanstvenici.
Nakon što su obučili svoj model, istraživači su ga upotrijebili za generiranje predviđanja strukture za više od 2000 sekvenci DNK, a zatim su ih usporedili s eksperimentalno određenim strukturama za te sekvence. Otkrili su da su strukture koje je generirao model iste ili vrlo slične onima koje se vide u eksperimentalnim podacima.
Istraživači su također otkrili da model može napraviti točna predviđanja za podatke iz tipova stanica koji nisu oni na kojima je treniran. Ovo sugerira da bi model mogao biti koristan za analizu kako se strukture kromatina razlikuju među tipovima stanica i kako te razlike utječu na njihovu funkciju. Model se također može koristiti za istraživanje različitih stanja kromatina koja mogu postojati unutar jedne stanice i kako te promjene utječu na ekspresiju gena.
Druga moguća primjena bila bi istražiti kako mutacije u određenoj sekvenci DNA mijenjaju konformaciju kromatina, što bi moglo rasvijetliti kako takve mutacije mogu uzrokovati bolesti.
Istraživanje objavljeno u časopisu Science Advances možete pronaći na ovoj poveznici.
Učitavam komentare ...