Konzervirane sekvence su slične ili identične sekvence DNK koje se javljaju u molekulama DNK, a uzrokuju odgovarajućesekvence u RNK, proteinima i ugljikohidratima .
Ove sekvence javljaju se kod različitih vrsta, što dokazuje da su se sekvence održavale u evoluciji unatoč njihovoj specijaciji. Što se u više sigurnosnih kopija filogenetskog stabla javlja određena konzervirana sekvenca, to je ona više konzervirana. Pošto se informacije o sekvenci normalno prenose sa roditelja na potomstvo pomoću gena, konzervirana sekvenca implicira da postoji konzervirani gen.
Konzervirane sekvence događaju se kada mutacije u visoko konzerviranoj regiji dovedu do neodrživih oblika života, to jest oblika koji se eliminira putem prirodnog odabiranja. Drugim riječima, takav proizvod gena je vitalan za život, a njegovu funkciju uništavaju gotovo sve promjene (mutacije) u sekvenci.
Konzervirane sekvence nukleinske kiseline
Osnovna teorija, široko prihvaćena, je da visoko konzervirane sekvence DNK moraju imati funkcionalnu vrijednost, iako uloga mnogih od ovih visoko konzerviranih nekodirajućih sekvenci DNK nije poznata. Jedna nedavna studija koja je eliminirala četiri visoko konzervirane nekodirajuće DNK sekvence kod miševa dala je održive miševe bez značajnih fenotipskih razlika; autori su svoje nalaze opisali kao "neočekivane".[1] Dakle, jasno je da ovdje postoji nešto što se ne razumije.
Mnoga područja DNK, uključujući visoko konzervirane sekvence DNK, sastoje se od ponavljajućih elemenata sekvence. Ako bi se uklonio samo jedan od niza ponovljenih sekvenci, a ponavljanja nisu bila potrebna, tada se neće vidjeti razlika kod miševa. U radu nije objavljeno da li su eliminirane sekvence ponovljene sekvence.
Konzervirane proteinske sekvence i strukture
Visoko konzervirani proteini često su potrebni za rad ili dijeljenje ćelija. Konzerviranje proteinskih sekvenci pokazuje prisutnost identičnih aminokiselinskih ostataka na analognim dijelovima proteina. Na konzerviranost proteinskih struktura ukazuje prisutnost funkcionalno ekvivalentnih, iako ne nužno identičnih, aminokiselinskih ostataka i struktura između analognih dijelova proteina.
Dolje je prikazano poravnavanje aminokiselina između proteina dva ljudska cinkova prsta. Konzervirane sekvence aminokiselina označene su sekvencama u trećem retku poravnavanja sekvence. Kao što se može vidjeti iz ovog poravnavanja, ova dva proteina sadrže brojne konzervirane sekvence aminokiselina (predstavljene identičnim slovima poravnatim između dvije sekvence).
Konzervirane sekvence mogu se identificirati pretraživanjem homologije, korištenjem alata kao što su BLAST, HMMER. OrthologR,[4] and Infernal.[5] Alati za pretraživanje homologije mogu uzeti pojedinačnu sekvencu nukleinske kiseline ili proteina kao ulaz ili koristiti statističke modele generirane iz poravnavanja višestrukih sekvenci poznatih srodnih sekvenci. Statistički modeli kao što su profil-HMM i modeli kovarijanse RNK koji također uključuju strukturne informacije,[6] može biti od pomoći kada se traže sekvence koje su udaljenije. Ulazne sekvence se zatim usklađuju s bazom podataka sekvenci srodnih osoba ili drugih vrsta. Rezultirajuća poravnavanja se zatim boduju, na osnovu broja odgovarajućih aminokiselina ili baza i broja praznina ili delecija koje je generiralo poravnavanje. Prihvatljive konzervativne supstitucije mogu se identifikovati korištenjem matrica supstitucije kao što su PAM i BLOSUM. Pretpostavlja se da su poravnanja sa visokim rezultatom iz homolognih sekvenci. O konzerviranosti sekvence se tada može zaključiti detekcijom vrlo sličnih homologa u širokom filogenetičkom rasponu.[7]
Višestruka poravnvanja sekvenci mogu se koristiti za vizualizaciju konzerviranih sekvenci. Format CLUSTAL uključuje ključ običnog teksta za označavanje konzerviranih stubaca poravnanja, označavajući konzerviranu sekvencu (*), konzervativne mutacije (:), polukonzervirne mutacije (.) i nekonzerane mutacije ( ).[9] Logotipi sekvence također mogu prikazati konzerviranu sekvencu, predstavljanjem proporcija znakova u svakoj tački poravnanja po visini.[8]
Genomsko poravnavanje
Za identifikaciju visoko konzerviranih regija može se koristiti i poravnavanje cijelog genoma (WGA) među vrstama. Dsadašnja tačnost i skalabilnost WGA alata i dalje je ograničena zbog računarske složenosti bavljenja preuređivanjem, ponavljajućim regijama i velike veličine mnogih eukariotskih genoma.[11] Međutim, WGA od 30 ili više blisko povezanih bakterija (prokariota) sada su sve izvodljivije.[12][13]
Sistemi bodovanja
Drugi pristupi koriste mjerenja konzerviranosti zasnovana na statističkim testovima koji pokušavaju identificirati sekvence koje mutiraju drugačije u odnosu na očekivanu pozadinsku (neutralnu) stopu mutacije.
GERP (Genomic Evolutionary Rate Profiling = genomska evolucijska stopa profiliranja) okvir ocjenjuje konzerviranosti genetičkih sekvenci među vrstama. Ovaj pristup procjenjuje stopu neutralnih mutacija u skupu vrsta iz višestrukog poravnavanja sekvenci, a zatim identificira regije sekvence koje pokazuju manje mutacija nego što se očekivalo. Ovim regijama se zatim dodjeljuju bodovi, na osnovu razlike između uočene stope mutacije i očekivane stope pozadinske mutacije. Visok GERP-rezultat tada ukazuje na visoko konzerviranu sekvencu.[14][15]
LIST[16][17] (Local Identity and Shared Taxa = lokalni identitet i zajednički za taksone) zasniva se na pretpostavci da su varijacije uočene u vrstama koje su blisko povezane s ljudima više značajno pri procjeni konzerviranosti u poređenju sa onima kod udaljenih vrsta. Prema tome, LIST koristi identitet lokalnog poravnanja oko svake pozicije da identifikuje relevantne sekvence u višestrukom poravnanju sekvenci (MSA), a zatim procjenjuje konzerviranost na osnovu taksonomskih udaljenosti ovih sekvenci do čovjeka. Za razliku od drugih alata, LIST zanemaruje broj/učestalost varijacija u MSA.
Aminoda[18] kombinira višestruka poravnavanja sa filogenetskom analizom da sagleda promjene u homolognim proteinima i proizvede dijagram koji ukazuje na lokalne stope evolucijskih promjena. Ovaj pristup identificira evolucijski ograničene regije u proteinu, a to su segmenti koji su podložni pročišćavajućoj selekciji i tipski su kritični za normalnu funkciju proteina.
Drugi pristupi kao što su PhyloP i PhyloHMM uključuju statističkofilogenetičke metode za upoređivanje distribucije vjerovatnoće stopa supstitucije, što omogućava otkrivanje i konzerviranja i ubrzane mutacije. Prvo, generira se pozadinska distribucija vjerovatnoće broja zamjena za koje se očekuje da će se dogoditi za kolonu u višestrukom poravnavanju sekvenci, na osnovu filogenetskog stabla. Procijenjeni evolucijski odnosi između vrsta od interesa koriste se za izračunavanje važnosti bilo koje supstitucije (tj. zamjena između dvije blisko srodne vrste može biti manja od onih koje su udaljene, a samim tim i značajnija). Da bi se otkrila konzervacija, distribucija vjerovatnoće, izračunava se za podskup višestrukog poravnavanja sekvenci i upoređuje se sa pozadinskom distribucijom pomoću statističkog testa kao što su test omjera vjerovatnoće ili test rezultata. P-vrijednosti generirane iz poređenja dvije distribucije se zatim koriste za identifikaciju konzerviranih regija. PhyloHMM koristi Markovljev model skrivenosti za generiranje distribucije vjerovatnoće. Softverski paket PhyloP upoređuje distribucije vjerovatnoće koristeći test omjera vjerovatnoće ili test rezultata, kao i korištenjem sistema bodovanja sličan GERP-u.[19][20][21]
Uporedna genomika
Područje istraživanja koje proučava evoluciju i funkciju višegenskih porodica naziva se komparativna genomika.[22]