1.3 工业大数据分析中的常见问题
1.3.1 业务和数据理解不当导致的失误
1)设定不具备价值的目标
数据分析的目的是获得新知识或者对知识进行更加深刻、准确的认识,而不是去证明领域内常识的正确性或研究已有的知识。当数据分析师缺乏领域常识时,就不容易分辨哪些知识才是值得研究的,因而浪费了大量时间。例如,有人要分析化学元素对材料性能的影响,终于发现某个元素对性能有显著影响,而该知识已是领域内的常识,这就造成了较高的探索成本。
2)业务上难以实施的目标
获得知识的目的是为了应用,预测和控制是典型的应用,但是并非所有的数据都能用来预测和控制。例如,用于预测的数据应该在事件发生之前产生,用于控制的变量要考虑经济可行性。
3)分析难度过大的目标
数据分析是为业务需求服务的,要注意避免研究那些投入高、产出低的问题。有些分析结果虽然很好,但是花费了大量的时间和精力,大大超出预期,从投入产出比看,未必合适。与此同时,也有些分析结果非常好、非常有用,甚至出乎人们的预料,而花费的时间也非常少。这些现象表明,我们对分析结果的投入产出比事先缺乏认识。
1.3.2 建模和验证过程的失误
1)不能及时终止子目标
在很多情况下,数据条件往往不能支撑预期的目标,常常导致分析项目高投入、低产出的问题。导致这种情况的原因,未必是数据分析算法的问题,而是数据本身的问题。数据质量很低时,难以得到高质量的分析结果。为避免出现这种情况,应事先对数据的质量和条件进行评估。
2)目标衡量的失误
数据分析师往往把“平均精度”作为衡量分析结果的唯一标准。对于可靠性要求很高的工业问题,此种做法有较大的漏洞和潜在风险。有些精度很高的模型,在实际中应用时,根本无法达到预定的效果,甚至得到与期望完全相反的结果,给企业造成很大的损失。导致这种现象的主要原因,是没有区分相关性和因果性,或者没有仔细研究这些分析结果适用的范围,如独立同分布特性。由于工业数据反映的是“系统性”,故这种问题是常见的。工业界对结论的可靠性要求很高,对分析结果的评估是值得仔细研究的问题,而多数团队对这个问题的重要性认识不足。
1.3.3 避免失误的方法
若要避免数据分析工作的陷阱,就须事先了解可能遇到的问题和困难,提高数据分析的价值创造能力,以避免在工作过程中遇到不必要的麻烦。
数据分析所遇到的问题,往往缘于数据分析师对业务过程、目标等认识不清。这些问题往往都是前期的准备工作做得不够而匆匆进入后面的工作所导致的,即工业领域的数据分析不能仅仅把数据分析工作看成利用单纯的数据分析技巧的过程,而是看成数据分析和领域知识融合的过程。“胜兵先胜而后求战,败兵先战而后求胜。”这个道理同样适合数据分析,在进行深入的数据分析之前,必须对业务需求、专业领域背景知识、数据的基本情况作尽可能深入的理解,明确问题的实质,要避免在“最后一公里”上“功亏一篑”。
要正确评估问题的难度。用尽量少的时间代价换取高的成功率和更多的价值。同时,要学会选择合适的方法解决合适的问题,还要对分析结果的可靠性进行科学的评估,避免技术在应用中出现负面作用。