1.2.2 数据项目团队的组成
数据分析是一个跨领域的方法论,涉及计算机科学、数学、神经学、心理学、经济学、统计学等领域。换句话说,数据分析并不是单一领域的学科。要完成一个好的数据项目,一个合作无间的数据项目团队必不可少,并且数据项目团队的人员必须同时掌握不同领域的知识,也需要有跨领域合作的思维。数据思维是一种跨领域宏观视野下的思维模式。
另外,跨领域的整合也是一个重要的数据应用关键。无论数据多寡,数据项目都建立在信息、统计、可视化等不同的领域专业上。不过从现实层面上来说,很难有人可以同时具备那么多能力,因此数据项目更需要团队合作。
一个完整的数据项目团队,除了要有特定领域的专家之外,还需要以下3种角色:数据科学家(Data Scientist)、数据分析师(Data Analyst)及数据工程师(Data Engineer)。
数据科学家是一个数据项目团队的核心,需要具备综合统筹的能力,包括观察数据、发现问题、组织整个数据团队,可以视为数据项目团队的组长,拥有相关领域的各种技能,哪里需要就往哪里去,能独立实现从分析数据、处理数据到实践应用直到最终产生价值的过程。简单来说,数据科学家就是“用数据解决真实问题的人”。也正因为如此,数据科学家须具有多元化的能力包括与其他角色沟通的能力,从处理数据的工程到分析数据的建模都需要涉猎,还要拥有洞察力。听起来好像数据科学家什么都要会,不过实际上很难有人可以样样精通,所以团队才显得更为重要。一个好的数据科学家,必须能够驾驭一个数据项目团队。
数据科学家的主要工作是观察数据,从中发现有趣的和需要解决的问题(通常这个过程被称为数据驱动);然后和工程师商量如何从数据库中建立分析架构;最终,与统计学家用统计模型/数据挖掘/机器学习的技术进一步分析数据,同时产生一份数据报告。数据科学家可以视为数据分析师的“进阶版”,解决数据分析师难以解决的复杂问题,终极目标是找出藏在数据背后的信息,并根据这些信息预测未来趋势。
数据科学家需要涉猎不同的领域,如基本的数学理论、大数据、程序设计、统计、机器学习与数据可视化等。简单来说,数据科学家需具备一定的综合能力。
数据分析师通常是指对数据进行解释的工作者。其工作步骤是“搜集数据—整理数据—分析数据—产生结果”,最常见的技能是利用常见的商业统计软件(如SQL、R、SAS、Excel)得出统计报告,并对统计报告进行解释。数据分析师所做的一切都是为了回答问题[通常这个过程被称为问题驱动(Problem Driven)]。
数据分析师在数据工程师提供的数据基础之上对数据进行探索性分析,目的是找到问题的正确答案,主要工作通常是例行性任务,定期出一个报告来分析季度数据,供管理层决策参考。数据分析师需要具有操作统计软件的基本技能,往往对数字及数据有一定的敏感性。
数据工程师的主要任务是进行数据的架构设计,专注于环境与平台的架设。其所做的一切都是为了让数据可以容易地被使用,负责建立和维持公司数据储存的技术基准,策划硬体和软件的结构,确保数据储存系统可以支持未来的数据量和分析需求,最终目标是把数据整理好,达到降低储存成本、提高查询效率的目的。
随着巨量数据的需求,现在的数据通常存在很多的噪声及干扰,相关人员需要花更多的精力在数据清理上。数据项目团队的主要工作包括收集数据、管理数据,设计一个好的架构以便存取数据,针对用户需求设计产出的数据集,需要具备数据爬虫、数据库架构、数据预处理(数据清理、转换)、数据建模、分散式系统等相关专业知识和技能。