1.6 本书的主要内容和组织结构
本书围绕笔者硕士、博士研究生阶段的研究进行讲述,主要内容包括四部分。
第一部分提及的基础知识涉及蛋白质相互作用、蛋白质网络、蛋白质复合物关键蛋白质以及蛋白质功能,这些内容是本书后续部分的研究重点。
第二部分主要围绕如何提高蛋白质网络的可靠性来讲述。其中,第2章主要讲述蛋白质网络的研究现状。构成静态蛋白质网络的蛋白质相互作用主要是在外部条件和不同时间下测定的。实际上,一些能在外部条件下发生的蛋白质相互作用有可能不能在生物体内出现。此外,生物体内的许多蛋白质相互作用仅仅只存在于细胞周期某些时间点或时间段。细胞中的蛋白质网络随着时间、环境以及细胞的不同阶段而变化,这称为蛋白质网络的动态性。正因为静态蛋白质网络不能反映真实细胞蛋白质网络中重要的动态特性,基于静态蛋白质网络的分析还远远达不到令人满意的程度。第3章结合基因表达数据,引入动态信息,构建动态蛋白质网络。酵母双杂交(Y2H)[105]、共沉淀(Co-Complex)[106]等高通量实验技术是在细胞核内或体外的不同条件下测定蛋白质相互作用,并不能提供它们在哪个亚细胞区间发生的信息。通过蛋白质亚细胞定位技术可以获得蛋白质在细胞中的位置信息,从而可以用来过滤假阳性的蛋白质相互作用,即当相互作用的两个蛋白质所处的位置不兼容时,物理相互作用就不会发生。因此,第4章引入蛋白质的亚细胞区间信息,介绍亚细胞区间蛋白质网络的构建方法和加权的蛋白质网络的构建方法。
第三部分主要介绍笔者硕士、博士研究生期间提出的几种蛋白质复合物识别方法。第5章简要介绍蛋白质复合物识别方法的研究现状。将蛋白质复合物固有的生物特征应用到蛋白质复合物预测,可使得预测的蛋白质复合物更具有生物意义。蛋白质复合物中的蛋白质必须处于各自的活性状态来与其他蛋白质相互作用紧密结合,而蛋白质复合物的形成是一种即时(just-in-time)机制,因此蛋白质复合物在各个时刻下可以划分为一些活性连通子集,相邻时刻的活性子集的交叠率较大,正是通过这种相邻时刻活性蛋白质交叠的特性,蛋白质复合物才能逐步形成。因此,第6章介绍一种基于蛋白质复合物形成机制与蛋白质活性的蛋白质复合物提炼方法。许多方法基于蛋白质复合物是蛋白质网络中高度连接的区域这一假设来识别蛋白质复合物。然而,绝大多数方法忽略了一个这样的事实,并不是复合物中所有的蛋白质都是高度连接的,具有不同拓扑特征的蛋白质可能以不同的方式来聚合成蛋白质复合物,所以应该区别对待。因此,第7章介绍了一种基于幂律分布的双层聚类算法(Power-Law Cluster,PLCluster)区别对待具有不同中心性得分的节点,并用蛋白质亚细胞定位信息过滤掉蛋白质亚细胞位置不兼容的复合物。生物网络与人类社会网络类似,生物分子之间存在协作关系以及调控关系,在第7章基于幂律分布的双层聚类方法的基础上,第8章介绍一种基于k层网络的蛋白质复合物识别算法(kCluster)。
第四部分主要介绍了笔者硕士、博士研究生期间提出的两种关键蛋白质预测方法。关键蛋白质预测的相关研究在第9章做简要介绍。因为蛋白质必须位于合适的亚细胞区间来执行它们的功能,也只有当蛋白质位于相同的亚细胞区间时,蛋白质相互作用才可能发生。而大部分已有的方法忽略了蛋白质相互作用的空间特性,从而不能足够有效地衡量网络中蛋白质的关键性。第10章在第4章介绍的亚细胞区间蛋白质网络构建方法的基础上,介绍一种通过结合任意一种中心性方法在亚细胞区间蛋白质网络中重新计算中心性得分来识别关键蛋白质的方法(LSED)。第11章在第4章介绍的加权蛋白质网络的基础上,介绍一种基于亚细胞区间重要性的中心性方法(Compartment Importance Centrality,CIC)来检测关键蛋白质。
第五部分主要介绍蛋白质功能预测。第12章介绍蛋白质功能预测的研究现状。序列相似性本身不是推断功能相似的一个充分条件,因为基于不同的体内环境如生物、组织和亚细胞定位,相同序列的功能可能会改变。基于结构相似性的预测性能依赖于对给定序列的域结构识别能力以及域本身的功能注释质量。蛋白质相互作用是在体外不同的条件下识别的,而我们并不知道这些相互作用到底是在哪个亚细胞区间发生的。因此,第13章介绍一种方法,利用亚细胞定位信息对序列相似的蛋白质/具有相同结构域的蛋白质进行过滤,仅保留具有相同亚细胞位置的相似蛋白质/具有相同结构域的蛋白质,根据这些蛋白质并推断出蛋白质p的相似性功能;基于蛋白质网络和亚细胞定位信息,计算蛋白质p的协同功能。最后,综合这三部分的功能,预测出蛋白质p的功能项集合。
第六部分对未来的蛋白质网络的研究方向进行展望。