深入浅出Python数据分析
上QQ阅读APP看书,第一时间看更新

1.2.1 定义数据项目

数据项目的核心在于数据。要解决好问题,相关人员必然要先了解有哪些常见的方法与技术可以应用在数据分析上。下面我们先来快速了解一下数据分析模型。

根据要解决的目标,数据分析模型可分成3种类型:监督式学习、非监督学习与半监督学习(Semi-Supervised Learning)。监督式学习指的是数据有一个明确的栏位,用来做预测或分类的目标变量。例如,人们可以利用过去的天气数据,包含“有没有下雨”这个栏位,来预测明天“会不会下雨”。此时,就可以称“下雨与否”为目标变量或统计学上的反应变量。简单来说,就是从过去数据中的其他栏位,找出与“有没有下雨”这个栏位之间的关系,并将其关系套用到一组未知数据“会不会下雨”的其他栏位中,得出“会不会下雨”的预测值。以上这个例子也是监督式学习的典型案例。监督式学习可以想象成根据目标找关系,有一个明确学习的栏位,因此被称为监督式学习。

数据驱动(Data Driven)的方法论是数据分析的一个概念。对于初学者而言,可以先聚焦在特定的问题上讨论,再在一个最小可解上进行优化;当熟悉各种方法论之后,再试着进行更泛化的数据驱动。