R实战:系统发育树的数据集成操作及可视化
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.4 总结

目前,用于推断分子进化数据(如祖先状态、分子钟分析、选择压力等)的软件越来越多,但还是缺少一个统一的文件格式来存储这些不同系统发育学软件分析出的数据。大多数软件都是自己单独设计一个输出格式,而这些格式之间又互不兼容,导致解析不同软件的输出变得十分困难,使用多种软件一起联合分析的过程也变得异常烦琐。treeio包[29]就是为了解决这个问题而生的。它提供了一系列函数来解析不同格式的系统发育学数据文件,也提供了一系列函数来将树形对象转换为phylo对象或treedata对象。这些系统发育学数据在整合后可以更好地进行接下来的数据探索与比较。目前来说,分子进化学领域的大多数软件都相对独立,不能很好地兼容其他软件的输入与输出,它们大多只负责自己的分析部分,而没有太过于注重输出的数据能否被其他软件读取。同时,缺少一个能将这些来自不同软件的输出结果整合到一起的工具。如果能将这些数据有效地整合起来,就能使我们对研究目标有一个更加全面的认识与理解,从而发现新的系统模式,或者提出新的假说。

在分子进化学背景下,利用进化树进行进化模式判别的应用范围越来越广泛,也有更多不同学科的学者开始将进化树应用于本学科的研究。例如,空间生态学家可以将研究生物的地理位置映射到进化树上,从而探究这些物种在生物地理学上的异同[37];流行病学家可以将病原体的采样时间与采样地点映射到进化树上,以在时间与空间层面上对疾病进行传播动力学研究[38];微生物学家可以在确定不同致病菌株的致病性后,将它们映射到进化树上,找出致病性的决定因素[39];基因组科学家可以使用进化树对宏基因组测序数据进行分类学层面的分类[40]。对于他们来说,通过treeio这款功能强大的软件,能够将不同种类的数据导入R中,并与进化树关联起来,从而推动“发育动力学”的研究,也就是系统发育学相关的研究。通过treeio也可以将多种元数据(如时间、地理位置、基因型、流行病学信息等)与分析结果(如选择压力、进化速率等)整合起来,为学者提供了更全面研究生物学的工具。在流感领域的研究中,已经有人尝试将这些不同的元数据与分析结果映射到同一棵进化树及进化时间尺度[41],来进行流感病毒的遗传动力学研究。