5.2 数据的直度和对称度
当今的数据工作者(data mechanics[1],简写作DMers)包括了统计学家、数据分析师、数据挖掘者、知识发现者等,我们知道探索性数据分析(EDA)为校直数据赋予了特殊重要性,这不仅是出于简单性方面的考虑。生活的真谛在于简单(至少对于那些老人和明智的人来说是这样)。在物理学的世界,爱因斯坦发现了一个只用三个字母就能表达的普适原理:E=mc2。而在这个肉眼可见的世界里,简单性并没有得到重视。笑脸是一种朴素、简单的形状,尽管如此,它能有效、清晰、迅速地传达信息。为什么数据工作者应该在工作中只接受简单的东西呢?数字应该有力地、无误地交流而无须附加其他太多东西。相应地,数据工作者应该寻求反映简单性的两个特征:数据中的直度和对称度。
校直数据的重要性体现在以下方面:
1)两个连续变量X和Y之间的直线(线性)关系是简单的。X值增加(减少)时,Y值也增加(减少)。此时X和Y正相关。另一种情况是,X值增加(减少)时,Y值减少(增加),此时X和Y负相关。作为简单性的一个例子(而且是永远都重要的),爱因斯坦公式里的E和m之间是完美的正线性关系。
2)对于线性数据,数据分析师可以轻易发现数据里的关系。线性数据很适合用于建模。
3)大多数市场营销模型属于线性统计模型的某个类别,要求因变量和(a)模型中的每个预测变量,(b)放在一起考虑的所有预测变量存在线性关系,将其视为具有多变量正态分布的一组预测变量。
4)众所周知,非线性模型利用非校直数据,实际上会比利用校直数据得到更好的预测结果。
5)我们并没有忽视对称这个特性。并非偶然,理论上存在对称度和直度并重的理由。校直数据可以让数据对称,反之亦然。重温一下,对称数据的值分布在一条分界线或数据中值的两侧,在规模和形状上是一致的。标志性的对称数据剖面是钟形的。
[1] 数据工作者(DMers)是一类人,他们精通对数据进行分析,对起先模糊或者隐含的数据给出细节或者推理。根据成立于1660年的皇家学会的说法,首位统计学家是约翰·格朗特(John Graunt),他认为伦敦的死亡率统计数据的意义远远超过了作为人们的茶余谈资。他整理分析了从1604到1661年的死亡率。格朗特的工作成果发表在《自然与政治观察》。他是头一位提出以下今天广为人知的统计规律的人:例如,男孩的出生率比女孩高,女性的寿命比男性长,以及除非是瘟疫原因,每年自然死亡的人数是相当稳定的。参见http://www.answers.com/topic/the-first-statistician。