第4章
亚细胞区间蛋白质网络的构建
绝大部分真核生物的蛋白质在细胞核中转录,在细胞质中合成。其中,许多蛋白质必须进一步运输到它们最终的目的地。在原核生物中,蛋白质在细胞基质中合成,一些蛋白质必须标靶到一些其他亚细胞区间,比如细胞膜或细胞外环境。蛋白质必须定位到合适的亚细胞区间才能行使它们期望的功能,也只有当蛋白质位于相同的亚细胞区间时,蛋白质相互作用才可能发生。
确定蛋白质所处的亚细胞区间对于理解蛋白质功能和基因组注释是至关重要的一步。在药物发现过程中,了解蛋白质的亚细胞定位信息可以显著提高目标识别率。例如,分泌蛋白质和等离子体膜蛋白因其定位在细胞外空间或在细胞表面而容易接触药物分子。细菌细胞表面和分泌蛋白作为疫苗候选或者诊断标靶的潜力也令人感兴趣。在一些细胞疾病中,比如癌症和阿尔兹海默症,存在处于异常亚细胞区间的蛋白质。
传统的亚细胞分离技术、融合绿色荧光蛋白、质谱和同位素亲和标签等实验技术,提供了一些比较精确的蛋白质亚细胞定位数据。但是这些技术不仅烦琐,而且费时[147]。近年来发展起来的生物信息学,在该领域用计算的方法预测蛋白质的亚细胞定位,取得了一系列颇有意义的成果,是生物信息学的一个成功应用。
蛋白质亚细胞定位预测问题涉及用计算方法来预测蛋白质停留在细胞的哪个亚细胞区间。一般而言,蛋白质亚细胞定位预测问题将蛋白质的信息作为输入,例如蛋白质序列,将预测到的亚细胞区间作为输出。
目前,有许多公开的蛋白质亚细胞定位预测工具,有一些预测工具专门针对真核蛋白质[148]、人类蛋白质[149]、植物蛋白质[150]等,还有一些预测工具可以用来处理可能同时存在于两个或多个不同亚细胞区间的蛋白质[151]。表4-1列出了其中一些代表性的定位预测工具。
表4-1 蛋白质亚细胞定位预测工具
目前,各种蛋白质数据库中的蛋白质亚细胞定位信息还不是很完善,除了一些综合数据库,例如UniProtKB,可以搜索蛋白质的亚细胞定位信息,还有一些公开的、专门的亚细胞定位数据库,其中包含了基于计算方法预测的蛋白质亚细胞定位数据,例如,针对真菌蛋白质的FunSecKB2数据库[152]、针对植物蛋白质的PlantSecKB数据库[153]、针对人类和动物蛋白质的MetazSecKB[154],以及包含了几种物种蛋白质亚细胞定位信息的COMPARTMENTS数据库[155]。
随着蛋白质亚细胞定位信息数据库的建立和高准确度预测软件的开发,许多生物的蛋白质亚细胞定位数据不断增长。蛋白质的亚细胞定位信息可用来提高蛋白质网络的可靠性,不仅可以为基于蛋白质网络的分析研究提供新的思路,还可以对推断蛋白质的功能提供有用信息。