智能风控:评分卡建模原理、方法与风控策略构建
上QQ阅读APP看书,第一时间看更新

1.3 与建模密切相关的4个领域

与建模密切相关的领域包括统计分析、数据挖掘、机器学习和数据分析,它们对应了不同类型的工作岗位,例如风险建模分析师、数据挖掘工程师、数据分析师、数据运营专员、数据工程师等。本节将重点介绍这几个领域的定义、特征以及相互之间的联系和区别。

1.3.1 机器学习

机器学习是一门人工智能科学,研究如何在经验学习中改善具体算法的性能。机器学习的核心是通过算法来学习和提取数据中的隐含规律,随着数据丰富程度和学习次数的增加,学习的目标函数的效果会持续提升。机器学习算法体系包括监督学习、非监督学习、半监督学习、强化学习等,详见图1-1。

023-01

图1-1 机器学习算法体系

目前机器学习领域使用最普遍的scikit-learn库将机器学习算法分为聚类、分类、回归和维度削减,此处不展开介绍,感兴趣的读者请参考相关资料。

1.3.2 数据挖掘

数据挖掘是从大量、不完全、有噪声、模糊、随机的数据中提取隐含在其中,人们事先不知道但又有用的信息和知识的过程。

数据挖掘的关键词是“隐含”“事先不知道”“有用的”。如果一个模型规律是已知的、预定义的且确定的,仅仅是通过数据来校准,则不属于数据挖掘范畴。

数据挖掘的对象按信息存储格式可分为:1)结构化数据,通常以二维表方式存储数据,如关系数据库、面向对象数据库、数据仓库;2)半结构化数据,以标记语言存储的数据,如XML、JSON、HTML等存储的数据;3)非结构化数据,如图像、语音、文本等。

数据挖掘包括聚类分群、分类识别、回归预测、关联分析、异常检测、时间序列等,而基础数据的处理等数据工程工作和可视化、最优化、预定义模型等则不属于数据挖掘。数据挖掘的范围如图1-2所示。

024-01

图1-2 数据挖掘的范围

1.3.3 数据分析

1. 数据分析的定义

数据分析是一个相对宽泛的概念,我们分别从狭义和广义的角度进行介绍。

(1)狭义角度:基于数据,按照特定分析思路和框架,提取有价值的信息。狭义的数据分析可以基于建模、基于指标计算,也可以基于数据可视化报表。

(2)广义角度:还包含数据工程和数据处理,例如定义数据模型、数据架构、数据处理,写SQL计算指标等。

通常来说,数据分析仅指“分析”,不含“处理”,也不含“工程”,数据分析的核心本质是从数据到信息、从信息到决策的过程。

2. 数据分析的思维模式

数据分析的思维方式有两种,下面分别进行介绍。

(1)自下而上的数据驱动。获得数据后,从数据出发,分析并挖掘有用的信息,用于辅助决策。

(2)自上而下的问题或目标驱动。在业务上发现特定问题或制订特定业务目标,需要通过数据挖掘背后原因,支持决策依据,形成行动方案。

3. 数据分析与数据运营的联系和区别

数据分析和数据运营都是通过数据来支撑业务需求的。数据分析相比于数据运营是一个更大范围的概念,倾向于强调分析技术的方法属性,关注分析过程以及分析所带来的价值,例如辅助决策。

数据运营关注具体的行动执行和运营过程,更强调业务属性,面向特定业务场景中具体的运营问题,例如用户运营、产品运营、流量运营、内容运营等。

4. 数据分析与数据工程的联系和区别

数据分析更关注分析,虽然很大一部分工作是和数据处理、指标计算相关的。

数据工程更关注工程角度,例如数据模型定义、数据库管理、数据体系架构等,更关注数据如何通过管理和逻辑设计提高系统性能,以便提供基础设施的建设和运行保障,满足业务运营和数据分析的需求。

1.3.4 统计分析

统计分析属于传统学科,与概率论和数理统计密不可分,通常数据都是带有随机因素的,通过数据揭示事物规律。统计实验设计也属于该范畴。

统计分析按照层次可以分为:1)描述性统计,揭示数据分布规律以及数据的统计可视化;2)诊断分析性统计,包括参数估计、假设检验、回归模型、逻辑回归、相关分析、主成分分析等。

统计思维通常基于特定假设(而后还需要进行假设检验),例如样本独立同分布、服从正态分布等。统计分析适合小数据量问题的分析,是统计机器学习的理论基础。

1.3.5 四者之间的联系与区别

1.3.1节~1.3.4节介绍了机器学习、数据挖掘、数据分析、统计分析的定义和特征,下面简单介绍一下四者之间的联系和区别。

1)统计分析为机器学习、数据挖掘、数据分析提供了分析的工具、方法和手段。

2)机器学习可以基于统计分析,也可以不基于,例如人工智能的符号主义和连接主义、决策树模型就不是统计类模型(虽然用到了统计计数,但和回归模型有本质区别),神经网络模型也不是统计类模型。

3)机器学习是数据挖掘的工具,数据挖掘是机器学习的应用。机器学习更强调底层技术,数据挖掘更贴合业务;与此类似的概念还有自然语言处理与文本挖掘。

4)数据分析可以基于统计分析,也可以不基于。统计分析只是数据分析的一部分,只要是能够提供基于数据提取信息形成决策的,都属于数据分析,例如基于业务指标报表的分析等。