工业大数据分析指南
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 工业大数据分析的特殊性

进入大数据时代,数据本身的变化不定是其最基本的特点,这会引发工作方法和价值体现方式的改变。对于数据的变化,非工业领域往往强调数量变化,但在工业领域,数据变化的重点更是数据完整性和质量的提升。随着数据完整性和质量的提高,人们能从不同的侧面观察对象和过程,得到更加可靠、更加精确、应用范围更大、涉及领域更多的分析结果,从而为工业大数据的应用奠定基础。因此,工业大数据分析方法的重点是如何利用数据条件的改善,得到质量高的分析结果。这使得工业大数据分析方法不同于传统的数据分析,也不同于商务大数据分析。此外,工业场景的边界都由专业领域的机理进行约束,因此,工业大数据的分析注重数据模型和机理模型的融合,它的重要特征是数据与机理的深度融合。

1.2.1 从工业数据分析到工业大数据分析

工业数据的分析或知识挖掘是学术界和工业界研究了多年的问题,诸多算法的基本思路都类似。进入大数据时代以来,由于数据和处理量的暴增,人们不得不采取各种并行算法和分布式处理技术,以提高数据处理的效率。换句话说,工业数据分析是“本”,工业大数据分析技术是“术”。由于本书重在“工业”特色,上述通用技术不是本书的重点。

与此同时,数据量更大、来源更广泛、记录更完整、种类更多样,这些给数据分析工作带来了新的机遇。无论复杂的算法(如深度学习)还是简单的算法(如线性回归),都有可能带来过去无法企及的效果。人们甚至更乐于采用一些简单的算法。但在大数据的条件下,这些简单算法的有效性大大提高了,能帮助人们得到可靠性更高、适用范围更大的模型。引发这些变化的原因如下。

(1)便于模仿(场景下的模仿):大数据常常是全体样本,而不是抽样。在这个前提下,就可以根据历史上成功或者失败的案例,模仿成功的做法、避免失败的做法,而不必通过理解规律来指导行动。这使得近邻算法等简单算法可以起到很好的效果。

(2)便于检验:当已知样本不能涵盖各种复杂的情况和场景时,数据模型很难有较强的泛化性。在大数据的背景下,这种现象可能会有本质性的好转,从而得到泛化性高的模型。

(3)视角全面:数据来源广泛时,有条件从不同的角度观察对象、分析验证,也有更好的条件辨别和剔除虚假的现象。这些都有利于建立可靠性极高的模型,甚至可能挖掘出新的科学规律。

如此,就将工业大数据分析的应用带入一个巨大的“蓝海”(指末知的市场空间),人们有条件让数据分析工作更加规范,明显区别于传统的数据挖掘或知识发现。但是,相关的条件不是天然具备的,需要在数据的完整性、规范性、质量等方面做更多的基础工作。

我们在实践中遇到的工业大数据分析的瓶颈或难点,往往不是计算机存储和处理数据的能力,而是数据关联关系的复杂性。这种复杂性使得传统的数据分析方法难以奏效,无法高效提炼出质量更高、价值更大的知识。如果没有合适的方法,面对工业大数据价值应用的“蓝海”时,就会束手无策,坐失良机。

要解决这类问题,不能仅仅停留在算法层面,而必须借鉴工程思想和方法,这是其挑战之所在。

1.2.2 工业大数据与商务大数据分析

工业大数据分析工作的特点和理念,往往不同于商务大数据分析,根本原因是工业过程对分析结果的精度、可靠性要求高,而工业对象和过程本身的复杂性也高。同时,工业界追求可靠性,对相关问题往往已经有了相对深入的研究。数据分析所得到的知识必须超越人们已有的知识,才能创造价值。这也提高了数据分析价值创造的门槛。换言之,工业大数据的分析,往往要在更差的条件下得到更好的结果。

工业大数据分析困难程度的增加,会引发分析方法的质变。对于复杂的工业过程数据分析,人们往往要强调因果性,而不能仅仅止步于相关关系;强调领域知识和数据分析过程的深度融合,而不是漠视已有的领域知识;强调复杂问题简单化,而不是追求算法的复杂和高深。这些思想变化的本质都是因问题复杂度的增加引起的。

工业对象复杂度的增加,也会导致分析工作失败的可能性显著增加。要提高数据分析的工作效率,关键之一就是设法降低分析过程失败的概率。因此,数据分析的前期准备工作和后期的评估与验证工作就显得特别重要。

1.2.3 工业大数据建模的难点

工业大数据建模的难点在于,虽然数据分析基础算法变化不大,但运用这些算法的过程大大复杂了。这是因为工业大数据分析的过程并非是选择好一个算法就可以一蹴而就的,而是一个持续改进、修正、完善的过程。理解工业大数据分析的特点,就是要理解这个持续进行的过程。

与商务或互联网大数据分析相比,工业大数据分析的难点就在于工业本身的复杂性。因此,不能仅把工业大数据分析看做基础算法。导致这种差异性的原因主要有3点:首先,工业产品大多是在人类已有知识的基础上制造出来的,人们对工业过程的认识原本就相对深刻,分析过程不能止步于肤浅的认识,只有这些知识具有更高精度和可靠性的时候才有实用价值。其次,人们对工业大数据分析结果的可靠性要求很高,不能满足于似是而非的结论。最后,工业过程数据的复杂性很高,数据质量也不理想,建模的难度也很大。因此,工业大数据分析面临的主要矛盾是业务需求高、数据条件差。

基于历史数据的大数据分析也有极大的局限性。导致局限性的原因有两个方面:首先是人类所接触的大量信息和知识并未出现在数字空间;其次是在数据足够多、分布完整、质量良好的前提下可以建立理想的数据模型,但当模型涉及的因素很多、形成真正的复杂多维度问题(如变量数目大于40)且机理不清晰时,就没有足够的数据以建立和验证模型(因为数据需求量有可能是维度的指数函数)。克服局限性的主要手段就是充分利用专业领域知识,专业领域知识的本质作用可以看做“降维”,故而可以用有限的数据,分析得到足够可靠的结果。