数据挖掘实用案例分析
上QQ阅读APP看书,第一时间看更新

1.7 数据分析团队的组建

随着大数据、人工智能广泛受到关注,各企业的决策者已经具备了数据驱动业务的意识,认识到数据分析对企业发展的潜在推动力,其中,在信息技术、金融等信息化程度较高的行业,数据分析团队建设处于领先地位在公共管理、医疗、能源、科教等领域中已经具备了信息化基础,也在逐步自建或外包数据分析团队,像制造业、建筑行业等传统行业还处在信息化建设时期,未来对数据分析的需求较大。

目前,数据分析团队属于新出现的职能部门,很多数据分析团队的建设过程也面临着一些问题,如数据分析结果很难落地、业务部门缺乏协作的动力、数据分析人才紧缺等,导致虽然公司领导对数据分析团队寄予厚望,但实际对业务带来的价值却有限。面对这些问题,就要求机构在组建数据分析团队时,要建立清晰的团队建设目标,将数据分析纳入决策流程,真正建立数据驱动的决策文化。

在实践中可按机构的信息化水平和业务特点渐进地构建数据分析团队。常见的数据团队的组织架构分为金字塔式和矩阵式,前者由首席数据官或项目经理作为领导者,带领数据科学家、数据工程师和业务专家,配合各个业务部门进行嵌入式分析工作,这种模式可以将分析技术进行复用,又可以快速响应业务部门的要求。矩阵式结构通常没有具体的负责人,而是以数据采集、数据清洗、数据分析、决策报告等工作来划分小团队,同一个小团队可以向多个业务部门提供服务,其好处是各数据小团队专业做自己擅长的技术,数据分析专业化程度较高,缺点是要求数据团队的成员对各业务部门知识都熟悉。

数据分析团队按照职能划分,可以分为项目经理、业务专家、数据提取人员、预处理人员、建模人员、测试人员,在实际的分析过程中可以将部分职能岗位进行细分或合并,如数据提取人员和数据预处理人员可为同一(组)人。

1.7.1 项目经理

项目经理或团队领导者通常肩负着定义团队目标、组建管理团队、出品数据分析报告等至关重要的职责,主要负责整个分析任务的目标设计、分工协调、方案设计和最终分析报告的总结生成等,其核心工作在于将各职能人员的目标尽可能保持一致,并对各成员的输出进行确认,以防出现数据处理不合格影响模型的效果,最终无法得到最优模型。

要求项目经理具备丰富的项目管理经验,对算法、模型、技术有一定的了解,最好是技术出身,既可研究技术,又可沟通业务,能够与业务部门合作,减少团队成员的工作阻力,激发团队热情,挖掘更多的数据价值。

1.7.2 业务专家

在某些专业化较强的领域中,数据分析人员需要尽快熟悉业务需求,在业务专家的指导下对需求或目标进行细化,以制定相应的数据要求说明书和分析模型设计规划。业务专家的角色在数据分析中非常重要,对模型在实际应用中进行应用检验都需要他们的确认,否则模型容易出现某些行业常识性错误。

1.7.3 数据工程师

数据工程师须具有编程能力,对算法、数据架构、软件工程有深入理解,如果对数据分析有一定的理解更好,其主要工作是将分析模型集成和应用,除此之外,还要对数据进行收集、整理和数据清洗,好的数据质量可以极大减少建模的工作量和提高模型的性能。另外,模型在实际业务流程中的部署和维护都需要工程师有较高的软件系统设计能力和开发能力。从职能上可将数据分析工程师细分为:数据平台架构师、开发工程师、运维工程师等。

在数据分析过程中,很多数据是可遇不可求的,在实际分析过程中需要对第三方的数据进行提取,以补充到数据集中,要求这部分人员有一定的编程经验,特别是要掌握一定的爬虫技术,对HTTP等网络协议有一定了解,能够在较短的时间内编写相应的代码对网站内容进行爬取。常见的爬取编程语言为R语言、Python等,其优势是目前有较多的第三方框架支持快速抓取内容,当然,Java或C#也可以实现相同的功能。

数据预处理的主要工作是对数据进行数据清洗,包括去除空值、异常数据,从而提高原始数据集的质量,另外一项工作是通过对数据进行多表关联查询和统计,将复杂字段统计之后提交给模型分析人员,减少模型的预处理时间,提高效率,并可以在建模之前对数据进行探索,能够进行统计型的数据分析。

1.7.4 数据建模人员

数据建模人员包括两大类,分别是数据分析师和数据挖掘工程师,前者要有科研能力,主要工作是对行业数据进行整理、分析,以做出行业研究、评估和预测等,通过使用工具软件来实现数据的商业意义。数据分析师至少要熟练掌握SPSS、Statistic、Eview、SAS等数据分析软件中的一种,最好具有一定的编程能力。

数据挖掘工程师需要具有一定的数学知识,掌握类似高等数学、概率统计、线性代数等数理常识,要对各种分类、聚类、关联、回归等算法特点和应用条件较熟悉,能够结合业务情况和实际提供的数据集进行算法选择,并且能够对算法进行一定程度的调优。

1.7.5 可视化人员

一图胜千言,分析结果的呈现是整个分析任务的整体表现。好的数据可视化不仅仅采用图形表格,而且将数据变化的过程和趋势进行动态展示,需要可视化人员依据行业或产品进行设计,按照场景和性能要求,选择合适的可视化技术,并制作样例。优秀的可视化工程师不仅可进行视觉设计,还具有一定的前端开发能力,使用Node.js或其他第三方组件进行数据动态展现。

1.7.6 评估人员

模型建好后,需要在测试环境和生产环境中进行测试和验证,评估人员在业务专家的配合下对模型进行不同应用场景的测试,以便查找模型中的过拟合、异常情况处理不足等问题,特别是在医疗领域,需要经过多轮反复验证后才可以投入使用。