Porodica proteina je evolucijski srodna grupa proteina. U mnogim slučajevima porodica proteina ima odgovarajuću porodicu gena, u kojoj svaki gen kodira odgovarajući protein u odnosu 1:1. Termin porodica proteina ne treba brkati sa porodica kako se koristi u taksonomiji.
Proteini u porodici potiču od zajedničkog pretka i obično imaju slične trodimenzijske strukture, funkcije i značajne sličnosti sekvenci. Najvažnija od njih je sličnost (obično aminokiselinskih) sekvenci, jer je najstriktniji pokazatelj homologije, a samim tim i najjasniji pokazatelj zajedničkog pretka. Postoji prilično dobro razvijen okvir za procjenu značaja sličnosti između grupe sekvenci, pomoću metoda zvanog poravnavanje sekvenci. Vrlo je malo vjerovatno da će proteini koji nemaju zajedničkog pretka pokazati statistički značajnu sličnost sekvenci, što poravnavanje sekvenci čini moćnim alatom za identificiranje članova proteinskih porodica.
Porodice se ponekad grupiraju u veće kladuse zvane superporodice, na osnovu strukturne i mehaničke sličnosti, čak i ako ne postoji identifikacija homologa sekvence.
Do sada je definirano preko 60.000 porodica proteina,[1] iako dvosmislenost u definiciji „porodice proteina“ dovodi do njihovogh podjednako različitog broja.
Terminologija i upotreba
Kao i kod mnogih bioloških termina, upotreba „porodice proteina“ donekle ovisi o kontekstu; može ukazivati na velike grupe proteina s najnižim mogućim nivoom sličnosti sekvence koja se može uočiti ili na vrlo uske skupine proteina s gotovo identičnom sekvencom, funkcijom i trodimenzijskom strukturom, ili bilo koji međutip. Da bi se napravila razlika između ovih situacija, pojam proteinska superporodica često se koristi za proteine koji se odnose na srodničku daljinu čija srodnost nije uočljiva sličnošću sekvenci, već samo iz zajedničkih strukturnih karakteristika.[2][3][4] Ostali termini poput „klasa“, „grupa“, „klan“ i „potporodica“ proteina nastali su tokom godina, ali svi trpe slične nejasnoće u upotrebi. Uobičajena upotreba je da superporodice (strukturna homologija) sadrže porodice (homologija sekvence) koje sadrže potporodice. Otuda superporodica, poput PA-klanaproteaza, ima daleko nižu kozerviranost sekvence od jedine porodice koju sadrži, porodice C04. Malo je vjerovatno da će biti dogovorena tačna definicija, a na čitatelju je da tačno utvrdi kako se ti termini koriste u određenom kontekstu.
Evolucija proteinskih porodica
Prema postojećem konsenzusu, porodice proteina nastaju na dva načina. Prvo, razdvajanje roditeljske vrste na dvije genetički izolirane potomstvene vrste omogućava genu/proteinu da nezavisno akumulira varijacije (mutacije) u ove dvije loze. To rezultira porodicom ortologa datih proteina, obično sa konzerviranim motivima sekvence. Drugo, dupliranje gena može stvoriti drugu kopiju gena (zvanu paralog). Budući da izvorni gen još uvijek može obavljati svoju funkciju, duplirani gen može se slobodno razilaziti i može steći nove funkcije (slučajnom mutacijom). Određene porodice gena/proteina, posebno kod eukariota, sudjeluju u ekstremnim ekspanzijama i kontrakcijama tokom evolucije, ponekad u skladu s duplikacijom genoma]]. Ovo širenje i sužavanje porodica proteina jedna je od istaknutih karakteristika evolucije cijeliig genoma, ali njegov značaj i posljedice tada nisu jasni.
Resursi za porodice proteina
Postoji mnogo bioloških baza podataka koje bilježe primjere porodica proteina i omogućavaju korisnicima da utvrde pripadaju li novoidentificirani proteini poznatoj porodici. Evo nekoliko primjera:
Pfam – Baza proteinskih porodica poravnavanja i HMM-ova
PROSITE – Baza proteinskih domena, porodica i funkcionalnih lokacija
PASS2 - Poravnavanje proteina kao strukturne superporodice v2-PASS2@NCBS [5]
SUPERPORODICA – Biblioteka HMM-ova koja predstavljaju superporodice i bazu podataka (superporodica i porodica), napomena za sve potpuno sekvencirane organizme
SCOP i CATH – klasifikacija proteinskih struktura u superporodica, porodica i domena
Slično postoje mnogi algoritmi za pretraživanje baze podataka, naprimjer: