第3章
动态蛋白质网络的构建方法
基因有条件、有时序地开启或关闭表达,因此不同条件、细胞周期不同阶段的基因表达数据能够反映蛋白质出现的动态性。对基于不同时间点或条件的基因表达数据的研究,能够提供一种研究蛋白质相互作用的动态改变的有效方法。生物学家将静态蛋白质网络作为构建动态网络的基本支架,试图通过结合基因表达数据来揭示蛋白质相互作用的动态性[25, 132-135]。
在第2章提到的结合基因表达数据的动态蛋白质网络构建方法中,通常关注的是基因表达的开启或关闭,即蛋白质表达的动态性。但是,蛋白质表达的动态性不能充分反映蛋白质相互作用的动态性。蛋白质在它的整个生命周期里并总不是处于活性状态,它只有在处于所需的特殊区间或与其他蛋白质形成复合物时才处于活性状态从而执行它的功能。也就是说,同时被表达却不处于活性状态的一对蛋白质不能保证它们之间发生相互作用。因为蛋白质的活性状态是蛋白质的三维结构,而蛋白质的三维结构决定它的功能,所以只有处于活性状态的蛋白质才能与其他蛋白质相互作用并执行它们的功能。由此可见,不是蛋白质表达的动态性,而是蛋白质活性的动态性,才是蛋白质相互作用动态性的本质。那些方法用的单一阈值来区分被表达的蛋白质和未被表达的蛋白质,忽略了内在的生物意义:细胞中不同基因有不同的表达模式,不同蛋白质的表达量存在很大差异。存在这样的蛋白质,它在细胞里发挥重要作用,而在整个细胞周期内,它对应的基因的表达水平都很低。单阈值会认为这些低表达的基因对应的蛋白质不表达,并将这些低表达的基因过滤掉。这种不适当的过滤使得动态网络的分析不可信、不准确。
如何确定蛋白质何时处于活性状态对于构建动态蛋白质网络非常关键。基因表达数据不仅可以推断蛋白质存在的动态信息,也可以推断蛋白质活性动态信息。在生物过程或细胞周期中,动态表达水平可以间接反映蛋白质活性的动态性。想获得所有时刻的基因表达谱在实际中是不可行的,因此,一个细胞周期的基因表达数据通常只包含细胞周期中n个时刻点,相邻时刻点间隔一定的时间。本章,基于各个基因的表达特性,我们提出了3-sigma方法为每个基因对应的基因产物计算活性阈值,从而确定蛋白质在细胞周期的哪些时刻处于活性状态。在这个方法得到的蛋白质活性的动态性的基础上,我们构建了动态蛋白质网络(APIN)[125]。为评价该网络的性能,我们构建了酵母的动态蛋白质网络,并比较了一个经典聚类算法在动态蛋白质网络(APIN)[125]、静态蛋白质网络(SPIN)、时序蛋白质网络(TC-PIN)[113]的蛋白质复合物预测结果。