什么是开放阅读框(Open Reading Frame, ORF)?
开放阅读框(ORF)是核酸(DNA 或 RNA)序列中一段连续的、从起始密码子开始,到终止密码子结束的碱基序列。这段序列原则上具备编码一段蛋白质或多肽的能力。
构成要素:
- 起始密码子: 标志着开放阅读框的开始。在大多数生物中,DNA 序列上的起始密码子是 ATG,对应的 mRNA 序列上的起始密码子是 AUG。它是翻译起始的信号。
- 终止密码子: 标志着开放阅读框的结束。在大多数生物中,有三种常见的终止密码子:TAA、TAG、TGA(DNA 序列)或 UAA、UAG、UGA(mRNA 序列)。这些密码子不编码任何氨基酸,而是作为翻译终止的信号。
- 编码序列: 位于起始密码子和终止密码子之间的碱基序列,由一系列三联体密码子组成,每个密码子对应一个特定的氨基酸(除终止密码子外)。
与基因的关系:
在一个典型的蛋白质编码基因中,其编码区(Coding Sequence, CDS)在转录为 mRNA 后,其序列就构成了 mRNA 上的主要开放阅读框。然而,需要注意的是,并非所有的开放阅读框都对应一个实际表达的基因。仅仅通过序列分析预测到的 ORF,我们称之为“潜在的开放阅读框”,它还需要其他证据(如转录证据、翻译证据、序列保守性、功能验证等)来确认是否是一个真正的蛋白质编码基因的一部分。
与信使RNA(mRNA)的关系:
mRNA 是基因转录的产物,是核糖体进行翻译的模板。mRNA 分子通常包含一个 5′ 非翻译区(5′ UTR)、一个开放阅读框(ORF)和一个 3′ 非翻译区(3′ UTR)。核糖体正是结合到 mRNA 上,并在 ORF 内按照密码子的顺序合成蛋白质。
开放阅读框存在于哪里?
开放阅读框主要出现在以下位置:
- DNA 序列中: DNA 双链都包含潜在的开放阅读框。在蛋白质编码基因中,主开放阅读框位于编码链上,对应于转录后 mRNA 中的 ORF。然而,即使在非编码区域或基因间区,任何从起始密码子到终止密码子的连续序列理论上都可以被视为一个潜在的开放阅读框。
- mRNA 序列中: 这是开放阅读框最直接发挥作用的地方。mRNA 分子上的 ORF 是核糖体进行翻译的区域。它通常位于 mRNA 的 5′ 非翻译区和 3′ 非翻译区之间。
在基因组中,虽然主要的 ORF 位于已知的蛋白质编码基因内,但在许多生物的基因组中也发现了位于基因间区或内含子中的短开放阅读框(short ORFs 或 sORFs),它们可能编码一些短肽,功能正在研究中。
一个核酸序列有多少个可能的开放阅读框?长度通常是多少?
可能的开放阅读框数量:
对于任意一段双链 DNA 序列,理论上存在 6 个可能的开放阅读框。这是因为:
- DNA 有两条链(正链和负链)。
- 在每一条链上,核糖体可以从三个不同的位置开始“阅读”序列,形成三个不同的读码框(Reading Frame)。例如,如果序列是 ABCDEFGHI…,可以从 A 开始读 (ABC, DEF, GHI…),从 B 开始读 (BCD, EFG, HIJ…),或者从 C 开始读 (CDE, FGH, IJK…)。
因此,正链有 3 个读码框,负链(反向互补序列)也有 3 个读码框,总共 6 个可能的读码框。在任意一个读码框内,只要找到一个起始密码子,并沿着该读码框继续,直到遇到一个终止密码子,这段序列就被定义为一个潜在的开放阅读框。
对于单链 RNA(如 mRNA),只有 3 个可能的开放阅读框,因为 RNA 是单链分子。
开放阅读框的长度:
开放阅读框的长度差异非常大,可以从几十个碱基对(对应几十个氨基酸)到几千个碱基对(对应几千个氨基酸)。它取决于该 ORF 编码的蛋白质或多肽的大小。例如,编码短肽的 ORF 可能只有几十个碱基,而编码大型酶或结构蛋白的 ORF 可能有几千个碱基。在生物信息学分析中,为了区分随机出现的短 ORF 和真正的潜在编码区,通常会设置一个最小长度阈值来过滤,例如要求 ORF 至少包含 50 个或 100 个密码子。
为什么需要开放阅读框来合成蛋白质?
开放阅读框对于蛋白质合成(翻译)至关重要,因为它精确地定义了核糖体应该在哪里开始读取 mRNA 序列以及按照哪种“节奏”(读码框)来读取,直到在哪里停止。
想象一下一段很长的字母序列,需要从中提取有意义的单词。如果没有标点符号或空格,同一个字母序列可能会被解读出完全不同的单词组合。核酸序列也是如此,它是由 A、T/U、C、G 这四种碱基组成的线性序列。
蛋白质是由氨基酸组成的,而核酸序列是每三个碱基(一个密码子)决定一个氨基酸。开放阅读框通过起始密码子指定了开始读取的位置,从而确定了唯一的读码框。一旦读码框确定,后续的碱基序列就按照每三个一组的方式被解读为密码子序列,直到遇到终止密码子。
没有开放阅读框的明确界定(起始密码子和终止密码子)以及建立的读码框,核糖体将无法准确地从 mRNA 序列中提取正确的密码子信息,从而无法合成正确的氨基酸序列,也就无法生成具有特定功能的蛋白质。
如何识别开放阅读框?核糖体如何利用它?
如何识别开放阅读框:
识别开放阅读框主要依靠生物信息学算法。这个过程通常包括:
- 扫描序列: 对一段核酸序列(DNA 或 RNA)的所有可能的读码框进行扫描。对于 DNA 双链,这意味着要扫描 6 个读码框;对于单链 RNA,扫描 3 个读码框。
- 寻找起始密码子: 在每个读码框内,寻找起始密码子(如 ATG/AUG)。
- 寻找终止密码子: 从找到的起始密码子开始,沿着当前的读码框继续扫描,直到遇到第一个终止密码子(如 TAA/UAA, TAG/UAG, TGA/UGA)。
- 定义 ORF: 从起始密码子到终止密码子之间的序列(包括起始密码子,不包括终止密码子本身所占据的三个碱基位置)就被定义为一个潜在的开放阅读框。
- 过滤和分析: 识别出的 ORF 可能会非常多,包括许多随机出现的短 ORF。通常会对 ORF 进行过滤,例如设定最小长度要求,或者进一步分析其序列特征(如密码子使用偏好)、是否存在启动子等调控元件附近、在不同物种间是否保守等,来预测哪些 ORF 最有可能真正编码蛋白质。
核糖体如何利用开放阅读框:
核糖体是细胞内执行翻译的分子机器。它们利用 mRNA 上的开放阅读框来合成蛋白质,过程大致如下:
- 结合 mRNA: 核糖体小亚基结合到 mRNA 分子上,通常在 5′ 端附近。
- 扫描和定位起始密码子: 在真核生物中,小亚基会沿着 mRNA 从 5′ 端向 3′ 端扫描,寻找起始密码子 AUG,通常是找到第一个位于合适序列环境(如 Kozak 序列)中的 AUG。在原核生物中,核糖体则通过识别 Shine-Dalgarno 序列直接结合在起始密码子 AUG 附近。
- 建立读码框: 一旦起始密码子被识别并结合了携带甲硫氨酸的 tRNA,核糖体大亚基结合,翻译正式开始。此时,起始密码子的位置就固定了核糖体将如何读取后续的碱基序列,即确定了唯一的读码框。
- 按读码框延伸: 核糖体沿着 mRNA 以三个碱基(一个密码子)为单位移动,并招募相应的携带氨基酸的 tRNA。氨基酸被连接起来,形成多肽链。这个过程严格按照由起始密码子确定的读码框进行。
- 遇到终止密码子终止: 当核糖体沿着 ORF 移动,遇到开放阅读框末端的终止密码子时,没有 tRNA 会携带氨基酸与终止密码子配对。释放因子结合到核糖体上,导致多肽链从 tRNA 上释放,核糖体从 mRNA 上解离,翻译过程结束。
整个过程中,开放阅读框确保了核糖体能够准确地读取 mRNA 上编码蛋白质的序列,从而合成正确的氨基酸序列。
开放阅读框发生变异或不完整会怎么样?
开放阅读框的序列如果发生变化,或者其结构不完整,可能会对蛋白质的合成和功能产生严重影响:
点突变(Point Mutations)
- 同义突变: ORF 内某个密码子发生一个碱基改变,但改变后的密码子仍编码相同的氨基酸。通常对蛋白质序列和功能没有影响。
- 错义突变: ORF 内某个密码子发生一个碱基改变,导致编码了不同的氨基酸。这可能影响蛋白质的三维结构和功能,影响程度取决于被替换氨基酸的位置和性质。
- 无义突变: ORF 内某个密码子发生一个碱基改变,使其变成了终止密码子。这会导致核糖体在到达原始终止密码子之前提前终止翻译,产生一个截短的蛋白质。截短的蛋白质通常没有正常功能,并且可能不稳定而被降解。
插入或删除突变(Insertion or Deletion Mutations, Indels)
- 移码突变(Frameshift Mutation): 如果插入或删除的碱基数量不是 3 的倍数(即不是完整的密码子),就会导致从突变点开始,后续所有密码子的读取框发生改变。这会导致翻译产生一段完全错误的氨基酸序列,并且很大概率会在不远处遇到一个随机产生的终止密码子,导致翻译提前终止。移码突变通常产生完全无功能的蛋白质。
- 非移码插入/删除: 如果插入或删除的碱基数量是 3 的倍数,虽然会在突变位置插入或删除一个或多个氨基酸,但突变点之后的读码框保持不变。这通常会对蛋白质结构和功能产生影响,但程度可能轻于移码突变。
开放阅读框结构的不完整或异常
- 缺少起始密码子: 如果 mRNA 上的 ORF 缺乏有效的起始密码子,核糖体可能无法在该位置启动翻译,或者错误地在下游的其他 AUG 位置启动,导致合成错误的或截短的蛋白质。
- 缺少终止密码子: 如果 ORF 没有终止密码子,或者终止密码子发生突变而失效,核糖体将不会正常终止翻译。它们会一直翻译到 mRNA 的末端,甚至可能翻译到 poly(A) 尾,产生一个异常延长的蛋白质。这种延长的蛋白质通常是无功能的,并且可能导致核糖体停滞,引发细胞的应对机制。
- 开放阅读框融合: 在某些情况下,两个相邻的 ORF 可能因为基因组重排等原因融合在一起,形成一个新的、更长的开放阅读框,从而编码一个融合蛋白。
总而言之,开放阅读框的完整性和序列准确性对于合成正确的蛋白质至关重要。其任何显著的改变都可能破坏正常的蛋白质合成过程,导致功能异常或无功能的蛋白质产生,进而影响细胞乃至整个生物体的正常生命活动。