Vùng mã hóa ở gen là chuỗi nuclêôtit của DNA mang thông tin di truyền về sản phẩm mà gen đó quy định. Sản phẩm này là phân tử RNA, trong đó chủ yếu và quan trọng nhất là mRNA (RNA thông tin) vì nó mang thông tin của prôtêin.[1][2][4][5]
Thuật ngữ này dịch từ nguyên gốc tiếng Anh: coding region (phiên âm Quốc tế: /ˈkoʊdɪŋ ˈriʤən/) và còn được gọi là trình tự DNA mã hoá (Coding DNA Sequence, phiên âm Quốc tế: /kōd'ing DNA sē'kwĕns/) hoặc chuỗi mã hoá (tiếng Pháp: séquence codante), do đó thường được viết tắt là CDS.
Cấu trúc
Trong cấu trúc tuyến tính (mạch thẳng) của một gen, người ta thường phân biệt 3 vùng là "vùng điều hoà" (regulatory region), "vùng mã hoá" (coding region) và "vùng kết thúc".[1][2][3] Vùng kết thúc thường được gọi là trình tự tắt (silencer) hoặc inactivateur (trình tự bất hoạt). Hình 1 mô tả các vùng này ở một gen nói chung.
Vùng mã hoá là phần có kích thước lớn nhất của gen, tính từ đầu 5' từ vị trí có bộ ba mở đầu (start codon) cho đến hết vị trí có bộ ba kết thúc dịch mã. Nếu chỉ xét một mạch của gen, thì có thể mô tả chung về các vùng này như hình 1. Ở sinh vật nhân sơ, thì vùng mã hoá gồm các bộ ba mã di truyền liên tiếp nhau, do gen của chúng là gen không phân mảnh. Còn ở sinh vật nhân thực, thì gen của chúng là gen phân mảnh có vùng mã hóa không liên tục, gồm các đoạn intrôn (không có mã di truyền) xen kẽ với các đoạn êxôn (có mã di truyền), do đó vùng mã hoá của gen cấu trúc có cả đoạn không mã hoá, tức là không mang mã quy định trực tiếp amino acid.[6]
Vì gen cấu trúc (gen mang thông tin quy định amino acid) tổng hợp ra mRNA (RNA thông tin), nên mRNA cũng có vùng mã hoá. Do đó, theo nghĩa rộng hơn, thì vùng mã hoá (tức là CDS - chuỗi mã hóa DNA) không chỉ có ở gen, mà còn có ở mRNA đã được phiên mã từ gen tương ứng. Ở mRNA, vùng mã hóa tính từ bộ ba mở đầuAUG khởi tạo dịch mã, cho đến hết bộ ba kết thúc là UAA hay UAG hoặc UGA.
Ở sinh vật nhân thực, khi một mRNA đã trưởng thành (đã được chế biến xong), thì vùng mã hóa của mRNA này - như trên đã giới thiệu - được tính từ bộ ba mở đầu cho đến hết bộ ba kết thúc và được "chặn" ở cả hai đầu (đầu 5' và đầu 3') bởi một chuỗi ribônuclêôtit gọi là chuỗi không được dịch mã (untranslated region) viết tắt là UTR. Đoạn UTR ở phía đầu 5' được đặt tên là 5'-UTR, còn đoạn UTR ở phía đầu 3' được đặt tên là 3'-UTR (hình 2). Lúc đã trưởng thành, thì CDS (của RNA) chỉ gồm toàn êxôn (có mã di truyền). Khi dịch mã, thì chỉ vùng mã hoá được ribôxôm dịch thành chuỗi pôlypeptit, còn các UTR có nhiều chức năng, nhưng chủ yếu là để ribôxôm nhận biết chỗ bám vào, tổng hợp pôlypeptit (hình 3).
Ở DNA bổ sung, thì vùng mã hoá luôn là liên tục, nghĩa là không phân mảnh, bởi nó được tổng hợp từ mRNA trưởng thành chỉ gồm toàn bộ ba mã di truyền là các êxôn.
Vai trò
Sau khi mRNA được tạo thành qua phiên mã và được chế biến (nếu ở sinh vật nhân thực), thì nó được làm khuôn để tổng hợp nên pôlypeptit, từ đó tạo thành prôtêin. Quá trình này gọi là dịch mã (hình 3). Chuỗi pôlypeptit tạo thành prôtêin bậc cao hơn được quyết định bởi vùng mã hoá (CDS) của RNA, nên vùng CDS rất quan trọng.
Do có mang bộ ba mã di truyền, nên vùng mã hoá đóng một vai trò đặc biệt trong đời sống của một sinh vật. Bất kể biến đổi nào dù nhỏ chỉ ở mức phân tử ở vùng này cũng dẫn đến thay đổi một bộ ba mã di truyền, do đó thường dẫn đến thay đổi amino acid trong prôtêin được tổng hợp nên, từ đó gây đột biến có hại. Một ví dụ kinh điển về trường hợp này trong lĩnh vực di truyền y học là bệnh hồng cầu liềm. Chỉ một đột biến điểm dạng thay thế đã làm hồng cầu vốn là tế bào hình cầu lõm hai mặt lại bị biến thành tế bào dài và thường cong như chiếc liềm tý hon (xem hình 4).[8] Cụ thể về bệnh này như sau:
‒ Côđon 6 ở gen HbA mã hoá β-glôbin đột biến thay cặp A-T bằng cặp T-A.
‒ Chuỗi pôlipeptit tương ứng có glutamic bị thay bằng valin.
‒ Từ đó alen HbA biến đổi thành alen HbS.
‒ Thể dị hợp HbA HbS có cả hồng cầu lành lẫn hồng cầu liềm, thường không làm việc nặng được và không thọ. Thể đồng hợp lặn HbS HbS chết rất sớm (thường chết trước 25 tuổi) do mắc loạt bệnh lí: hồng cầu dễ vỡ, gây tắc mạch, tiêu huyết, tổn thương lách v.v.
Cũng ở người, ngay cả một thay đổi rất nhỏ trong trình tự mã hóa, ví dụ như đột biến của một amino acid duy nhất, có thể có những hậu quả rất đáng kể đối với cơ thể. Một ví dụ khác về sự thay đổi như vậy là ở mức nhạy cảm của thụ thể thuốc phiện OPRM1. Ở vị trí 118 của vùng mã hóa của gen này, một nuclêôtit được chèn vào sẽ có tác động lớn đến độ đa dạng của mRNA tương ứng được tạo ra. Sau khi dịch mã, ađênôzin ở vị trí 118 được thay bằng guanôzin, tạo ra hiện tượng đa hình nuclêôtit ở vị trí 40, trong đó asp (asparagine) được mã hóa được thay thế bằng axit aspartic. Biến thể 118G vẫn hoạt động, nhưng do ảnh hưởng xấu đến việc sản xuất mRNA và prôtêin tương ứng, nên trên lâm sàng cho thấy nó đóng vai trò tăng nhạy cảm của người có đột biến này đối với chất gây nghiện. Nói nôm na là đột biến này dễ gây chết hơn so với người thường cũng dùng lượng thuốc phiện như vậy.
Một ví dụ khác về hiện tượng đa hình ở một vị trí amino acid có thể gây ra hậu quả đáng kể cho cơ thể là gen FOXP2. Khi arginine ở vị trí 553 được thay thế bằng histidine, chuỗi xoắn alpha có chứa đột biến sẽ sửa đổi hoạt động của miền liên quan bằng cách giảm khả năng liên kết của DNA với prôtêin tương ứng như một chất kích hoạt, có thể gây biến đổi hoạt động của một số gen khác. Do đó, đột biến này có thể tạo ra sự phát triển bất thường của một số cấu trúc thần kinh nhất định đóng vai trò trong sinh lý học của lời nói và ngôn ngữ.
Sau đây là liệt kê một số bệnh thường gặp do đột biến ở vùng mã hoá hoặc có liên quan tới CDS, gọi là các bệnh di truyền (Genetic Disorders), xếp theo thứ tự tiếng Anh.[9]