蛋白质网络建模及预测
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 蛋白质相互作用

蛋白质相互作用(Protein Interaction)在活细胞基础生物过程中起着至关重要的作用,如改变酶的动力学性质,催化代谢反应,激活或抑制蛋白质,改变蛋白质的特异性,调节上下游水平,运输分子,等等。在影响细胞生长和转化的信号通路中,蛋白质相互作用是基本元素,蛋白质相互作用的变化和竞争为通路提供了多样性的调控机制[9, 10]。由于蛋白质相互作用是生理学和病理学上的关键信号事件,靶向蛋白质相互作用可以干扰信号事件,使细胞功能失调[11-13],并已被作为一种新的癌症治疗策略进行研究[14-16]。因此,研究蛋白质相互作用及揭示组织中完整的蛋白质相互作用图谱,不仅有助于揭示细胞潜在的分子机制[17],而且可以为研究疾病在细胞系统生物学水平上的机制提供框架[18-21]

通常,蛋白质相互作用是指在特定的生物学环境中,通过特定的分子对接,使蛋白质之间发生特异性的直接或间接的物理接触[17, 22]。如果两个蛋白质的分子界面相互接触,则相互作用是“直接的”;如果两个蛋白质在物理上分离,但它们通过其他中间物相互作用并形成复合物,则相互作用是“间接的”。蛋白质之间的相互作用不是偶然发生的,而是具有确定性的。

根据蛋白质相互作用生存期和稳定性,蛋白质相互作用可分为瞬时的和稳定的。稳定的蛋白质相互作用通常涉及形成稳定的蛋白质复合物。例如,血红蛋白和RNA聚合酶相关的复合物是由蛋白质之间稳定的相互作用构成的[23]。瞬时的蛋白质相互作用发生在一定的生物环境中,蛋白质之间迅速发生相联和分离[24, 25],这为细胞对细胞外刺激作出快速反应提供了一种机制。稳定的蛋白质相互作用通常比瞬时的蛋白质相互作用更稳定、生存期更长。

根据蛋白质亲和度的不同,蛋白质相互作用还可分为专性亲和的和非专性亲和的。非专性亲和蛋白质相互作用大多为瞬时的蛋白质相互作用[26],而专性亲和蛋白质相互作用通常为稳定的蛋白质相互作用。蛋白质相互作用还可以基于折叠分为域-域相互作用和域-肽相互作用[27]。通常,域-肽相互作用具有瞬态性质,也称为肽介导的瞬态相互作用[28]。这些相互作用域在与特定的肽基序结合时不会改变其构象,因此可以灵活更换相互作用伙伴[28]

到目前为止,小规模实验、高通量实验和计算方法检测了大量的蛋白质相互作用。不同的方法有各自的局限性,不同的数据来源有不同的质量。小规模的实验方法可以检测出的蛋白质相互作用,可靠性高,但吞吐量较低。高通量实验方法[29, 30]和许多计算方法[31, 32]可以快速检测和识别大量新的蛋白质相互作用,但可靠性相对较低,大部分实验检测到的或计算预测的蛋白质相互作用是假阳性的[33, 34]。此外,蛋白质相互作用并不是一直存在的,许多蛋白质相互作用仅发生在特定的条件或生理环境中,这使得体外检测这些蛋白质相互作用存在困难。此外,蛋白质相互作用的检测还受到多种因素的影响,如蛋白质丰度、翻译后修饰(PTM)、短暂性、蛋白质中的无序区域和生理条件。因此,揭示完整的蛋白质相互作用图谱还面临着各种各样的挑战。

检测蛋白质相互作用的实验技术主要有两类:二元法和同复合物法。二元法检测蛋白质对之间的相互作用,代表性的方法有酵母双杂交技术(Y2H)[35]。酵母双杂交技术利用这样一个现象来检测蛋白质相互作用:如果DNA结合结构域(BD)与激活结构域(AD)物理关联,则在真核生物中可以激活转录。因此,目标蛋白(诱饵)与DNA结合结构域融合,而另一种蛋白(猎物)与激活结构域融合。如果报告基因的转录被激活,那么表明两种蛋白质发生物理相互作用。为了鉴定相互作用的蛋白质对,要将相互作用杂合蛋白对的开放阅读框(ORF)或cDNA直接从酵母转化体中扩增,随后通过测序鉴定。以前,采用Sanger测序来确定相互作用的蛋白质对,既昂贵又费时。近年来,下一代测序(NGS)大大加快了这一过程。Yu1等[31]提出了Stitch-seq方法,该方法将PCR和NGS结合到高通量的酵母双杂交筛选中。最近,Ulrich Stezl等人[36]设计了Y2H-Seq方法,该方法将NGS与矩阵Y2H结合使用,可以增加蛋白质相互作用检测的规模和灵敏度。文献[37]给出了有关NGS在蛋白质相互作用检测中应用的详细介绍。Y2H方法的缺点是其结果不是基于真实的定量测量。Suter等人[38]介绍了一种微阵列-Y2H筛选和评分系统,并将其用于识别决定神经退行性疾病的相互作用蛋白质。

同复合物法检测一组蛋白质之间的物理接触,而不是确定相互作用的蛋白质对。亲和纯化-质谱(TAP-MS)是最常见的同复合物法[39]。亲和纯化(TAP)技术对单个蛋白质(诱饵)进行标记,然后将其用于钓出一组蛋白质(猎物),通过质谱(MS)技术对它们进行分离和鉴定。对于来自同复合物实验的实验数据,可以使用“广播”模型或“矩阵”模型[40, 41]将其转换为成对的相互作用。“广播”模型为诱饵蛋白质与每个猎物蛋白质之间指派相互作用[40],而“矩阵”模型为组中所有的蛋白质对指派相互作用。Bader等人[40]的实验表明,“广播”模型的精度大约比“矩阵”模型的精度高三倍。后来,Hakes等人[41]提出了一种组合方法,对由5条或更少的多肽链组成的复合物使用“矩阵”模型,对6条或者更多条多肽链组成的复合物使用“广播”模型推导相互作用。

这两种不同类型的技术具有不同的优势。Y2H是一种体内技术,可以识别短暂和不稳定的相互作用。但是,Y2H发生在细胞核中,与其他方法相比,它预测与翻译有关相互作用能力更弱。而且,许多蛋白质可能没有运送至正确的亚细胞区间,因此Y2H检测到的相互作用可能不是真实生理环境下发生的相互作用。TAP-MS可以检测生理环境中的真实复合物。但是,它可能会错过不能存在于当前给定条件下的复合物,它还难以检测瞬态和不稳定的相互作用以及涉及运输和传感的相互作用。随着定量蛋白质质谱的新进展,将最新的质谱技术与合适的生化技术相结合,可以监测各种条件下蛋白质复合物的瞬时相互作用以及组成、化学计量、定位和翻译后修饰的动态变化[42]

不同的技术会生成互补的蛋白质相互作用数据集,即使基于相同技术的数据集也可以在一定程度上相互补充。Futschik等人[43]比较了最近发布的几种大规模的人类蛋白质相互作用图谱,他们发现只有很小的在统计上有显著性的重叠。我们从Biogrid数据库(版本3.4.135)[44]中提取的酵母和人类的蛋白质物理相互作用的数据集,计算了两种不同实验方法产生的蛋白质相互作用数据集之间的重叠率。图1-1中,Biogrid数据集中有13种实验方法具有物理相互作用的证据。在人类蛋白质中,亲和捕获-质谱(Affinity Capture-MS)、重构复合物(Reconstituted Complex)-亲和捕获-Western(Affinity Capture-Western)和Y2H方法生成的人类蛋白质相互作用超过19000条,远远超过其他方法。在酵母蛋白质中,大多数蛋白质相互作用是由Y2H和Affinity Capture-MS产生的。在人类蛋白质和酵母蛋白质中,通过两种方法生成的数据集的重叠率在大多数情况下都很低。通过共晶体结构和Far Western等方法生成的一些小型蛋白质相互作用数据集,与Affinity Capture-MS和Affinity Capture-Western具有高度重叠。不同的蛋白质相互作用数据集可能意味着技术的选择和检测偏差很大。因此,整合从不同实验获得的蛋白质相互作用数据可以提供比单来源的蛋白质相互作用数据更清晰的生物学视图。

图1-1 Biogrid数据库中不同的实验方法产生的数据集之间的重叠率

注:两个蛋白质相互作用数据集的重叠率,计算为共有的蛋白质相互作用数目与两个数据集中较小数据集大小的比。这些方法是Biogrids数据集中具有物理相互作用证据的方法。C1~C6是共复合物方法(C1:亲和捕获-发光;C2:亲和捕获-MS;C3:亲和捕获-Western;C4:共分离;C5:重构的复合物;C6:共纯化)。P1~P3方法会生成直接的蛋白质相互作用(P1:酵母双杂交;P2:PCA;P3:蛋白质肽)。CS、CL、FW和FR分别表示Biogrids中的共晶体结构方法、共定位方法、Far Western方法和FRET方法。行名称(C1,C2,C3,C4,C5,C6,P1,P2,P3,CS,CL,FW,FR)和列名称(C1,C2,C3,C4,C5,C6,P1,P2, P3,CS,CL,FW,FR)由所有数据单元共享。对角线右上的数据单元代表两种不同方法生成的两个人类蛋白质相互作用数据集的重叠率。对角线左下的数据单位代表两种不同方法生成的两个酵母蛋白质相互作用数据集的重叠率。例如(C1,C2)表示由C1和C2生成的两个人类PPI数据集的重叠率。