三、实验数据处理
1.方差分析
方差分析是分析实验数据的一种方法,它所要解决的基本问题是通过数据分析,搞清与实验研究有关的各个因素(可定量或定性表示的因素)对实验结果的影响及影响的程度、性质。
方差分析的基本思想是通过数据的分析,将因素变化所引起的实验结果间的差异与实验误差的波动所引起的实验结果的差异区分开来,从而弄清因素对实验结果的影响,如果因素变化所引起实验结果的变动落在误差范围以内,或者与误差相关不大,就可以判断因素对实验结果无显著影响;相反,如果因素变化所引起实验结果的变动超过误差范围,就可以判断因素变化对实验结果有显著的影响。从以上方差分析的基本思想中可以了解,用方差分析法来分析实验结果,关键是寻找误差范围,利用数据统计中F检验法可以帮助解决这个问题。下面简要介绍应用F检验法进行方差分析的方法。
单因素的方差分析是研究一个因素对实验结果是否有影响及影响程度如何的问题。
(1)问题的提出
为研究某因素不同水平对实验结果有无显著的影响,设有A1,A2,…,Ab个水平,在每一个水平下进行α次实验,实验结果是xij,xij表示在Ai水平下进行的第j个实验。现在要通过对实验数据的分析,研究水平变化对实验结果有无显著影响。
(2)几个常用统计名词
①水平平均值 该因素下某个水平实验数据的算术平均值
(4-17)
②因素总平均值 该因素下各水平实验数据的算术平均值
(4-18)
式中,n=αb。
③总偏差平方和与组内、组间偏差平方和 总偏差平方和是各个实验数据与它们总平均值之差的平方和
(4-19)
总偏差平方和反映了n个数据分散和集中的程度,ST大,说明这组数据分散,ST小,说明这组数据集中。
造成总偏差的原因有两个:一个是由于测试中误差的影响所造成,表现为同一水平内实验数据的差异,以SE组内差方和表示;另一个是由于实验过程中,同一因素所处的不同水平的影响,表现为不同实验数据均值之间的差异,以因素的组间差方和SA表示。
因此,有ST=SE+SA。
工程技术上,为了便于应用和计算,常用下式进行计算,将总偏差平方和分解成组间偏差平方和与组内偏差平方和,通过比较,从而判断因素影响的显著性。
组间差方和
SA=Q-P (4-20)
组内差方和
SE=R-Q (4-21)
总差方和
ST=SE+SA (4-22)
式中
(4-23)
(4-24)
(4-25)
④自由度 方差分析中,由于SA、SE的计算是若干项的平方和,其大小与参加求和的项数有关,为了在分析中去掉项数的影响,故引入了自由度的概念。自由度是数理统计中的一个概念,主要反映一组数据中真正独立数据的个数。
ST的自由度为实验次数减1,即
fT=ab-1 (4-26)
SA的自由度为水平数减1,即
fA=b-1 (4-27)
SE的自由度为水平数与实验次数减1之积,即
fE=b(a-1) (4-28)
(3)单因素方差分析步骤
对于具有b个水平的单因素,每个水平下进行a次重复实验得到一组数据,方差分析的步骤、计算如下。
①列成表4-2。
表4-2 单因素方差分析计算表
②计算有关的统计量ST、SA、SE及相应的自由度。
③列成表4-3并计算F值。
表4-3 方差分析表
F值是因素的不同水平对实验结果所造成的影响和由于误差所造成的影响的比值。F值越大,说明因素变化对成果影响越显著;F值越小,说明因素影响越小,判断影响显著与否的界限由F表给出。
④由附录2 F分布表,根据组间与组内自由度n1=fA=b-1,n2=fE=b(a-1)与显著性水平α,查出临界值λα。
⑤分析判断。
若F>λα,则反映因素对实验结果(在显著性水平α下)有显著的影响,是一个重要因素。反之,若F<λα,则因素对实验结果无显著影响,是一个次要因素。
在各种显著性检验中,常用α=0.05,α=0.01两个显著水平。选取哪一个水平,取决于问题的要求。通常称在水平α=0.05下,当F<λ0.05时,认为因素对实验结果影响不显著;当λ0.05<F<λ0.01时,认为因素对实验结果影响显著,记为*;当F>λ0.01时,认为因素对实验结果影响特别显著,记为**。
对于单因素各水平不等重复实验,或者虽然是等重复实验,但由于数据整理中剔除了离群数据或其他原因造成各水平的实验数据不等时,此时单因素方差分析,只要对公式做适当修改即可,其他步骤不变。如某因素水平为A1,A2,…,Ab相应的实验次数为a1,a2,…,ab,则有
(4-29)
(4-30)
(4-31)
2.正交实验方差分析
(1)概述
对正交实验成果的分析,除了前面介绍过的直观分析法外,还有方差分析法。直观分析法,优点是简单、直观,分析、计算量小,容易理解,但因缺乏误差分析,所以不能给出误差大小的估计,有时难以得出确切的结论,也不能提供一个标准,用来考察、判断因素影响是否显著。而使用方差分析法,虽然计算量大一些,但却可以克服上述缺点,因而科研生产中广泛使用正交实验的方差分析法。
1)正交实验方差分析基本思想 与单因素方差分析一样,正交实验方差分析的关键问题也是把实验数据总的差异即总偏差平方和,分解成两部分:一部分反映因素水平变化引起的差异,即组间(各因素的)偏差平方和;另一部分反映实验误差引起的差异,即组内偏差平方和。然后计算它们的平均偏差平方和即均方和,进行各因素组间均方和与误差均方和的比较,应用F检验法,判断各因素影响的显著性。
由于正交实验是利用正交表所进行的实验,所以方差分析与单因素方差分析也有所不同。
2)正交实验方差分析类型
利用正交实验法进行多因素实验,由于实验因素、正交表的选择、实验条件、精度要求等不同,正交实验结果的方差分析也有所不同,一般常遇到以下几类:①正交表各列未饱和情况下的方差分析;②正交表各列饱和情况下的方差分析;③有重复实验的正交实验方差分析。
三种正交实验方差分析的基本思想、计算步骤等均一样,不同之处在于误差平方和SE的求解,下面分别通过实例论述多因素正交实验的因素显著性判断。
(2)正交表各列未饱和情况下的方差分析
多因素正交实验设计中,当选择正交表的列数大于实验因素数目时,此时正交实验结果的方差分析即属这类问题。
由于进行正交表的方差分析时,误差平方和SE的处理十分重要,而且又有很大的灵活性,因而在安排实验、进行显著性检验时,正交实验的表头设计,应尽可能不把正交表的列占满,即要留有空白列,此时各空白列的偏差平方和及自由度,就分别代表了误差平方和SE与误差项自由度fE。
(3)正交表各列饱和情况下的方差分析
当正交各表各列全被实验因素及要考虑的交互作用占满,即没有空白列时,此时方差分析中SE=ST-∑Si,fE=fT-∑fi。由于无空白列,ST=∑Si,fT=∑fi,而出现SE=0,fE=0,此时,若一定要对实验数据进行方差分析,则只有用正交表中各因素偏差中几个最小的平方和来代替,同时,这几个因素不再作进一步的分析。或者是进行重复实验后,按有重复实验的方差分析法进行分析。
(4)有重复实验的正交方差分析
除了前面谈到的,在用正交表安排多因素实验时,各列均被各因素和要考察的交互作用所排满,要进行正交实验方差分析,最好进行重复实验外,更多的时候重复实验是为了提高实验的精度,减少实验误差的干扰。所谓重复实验,是真正地将每号实验内容重复做几次,而不是重复测量,也不是重复取样。
重复实验数据的方差分析,一种简单的方法,是把同一实验的重复实验数据取算术平均值,然后和没有重复实验的正交实验方差分析一样进行。这种方法虽简单,但是由于没有充分利用重复实验所提供的信息,因此不太常用。下面介绍一下工程中常用的分析方法。
重复实验方差分析的基本思想、计算步骤与前述方法基本一致,由于它与无重复实验的区别就在于实验结果的数据多少不同,因此,两者在方差分析上也有不同,其区别如下。
1)在列正交实验成果表与计算各因素不同水平的效应及指标y之和时:①将重复实验的结果(指标值)均列入成果栏内;②计算各因素不同水平的效应K值时,是将相应的实验结果之和代入,个数为该水平重复数a与实验重复数c之积;③指标y之和为全部实验结果之和,个数为实验次数n与重复次数c之积。
2)求统计量与偏差平方和时:①实验总次数n'为正交实验次数n与重复实验次数c之积;②某因素下同水平实验次数a'为正交表中该水平出现次数a与重复实验次数c之积。
统计量P、Q、W按下列公式求解
(4-32)
(4-33)
(4-34)
3)重复实验时,实验误差SE包括两部分,SE1和SE2,且SE=SE1+SE2。
SE1为空列偏差平方和,本身包含有实验误差和模型误差两部分。由于无重复实验中误差项是指此类误差,故又称为第一类误差变动平方和,记为SE1。
SE2已是反映重复实验造成的整个实验组内的变动平方和,是只反映实验误差大小的,故又称为第二类误差变动平方和,记为SE2,其计算式为
(4-35)
3.实验数据的表示
在对实验数据进行误差分析、整理并剔除错误数据和分析各个因素对实验结果的影响后,还要将实验所获得的数据进行归纳整理,用图形、表格或经验公式加以表示,以找出影响研究事物的各因素之间的规律,为得到正确的结论提供可靠的信息。
常用的实验数据表示方法有列表表示法、图形表示法和方程表示法三种。表示方法的选择主要是依靠经验,可以用其中的一种方法,也可两种或三种方法同时使用。
(1)列表表示法
列表表示法是将一组实验数据中的自变量、因变量的各个数值依一定的形式和顺序一一对应列出来,借以反映各变量之间的关系。
列表法具有简单易作、形式紧凑、数据容易参考比较等优点,但对客观规律的反映不如图形表示法和方程表示法明确,在理论分析方面使用不方便。
完整的表格应包括表的序号、表题、表内项目的名称和单位、说明及数据来源等。
实验测得的数据,其自变量和因变量的变化有时是不规则的,使用起来很不方便。此时,可以通过数据的分度,使表中所列数据有规则地排列,即当自变量作等间距顺序变化时,因变量也随之顺序变化。这样的表格查阅较方便。数据分度的方法有多种,较为简便的方法是先用原始数据(即未分度的数据)画图,作出一条光滑曲线,然后在曲线上一一读出所需的数据(自变量作等间距顺序变化),并列出表格。
(2)图形表示法
图形表示法的优点在于形式简明直观,便于比较,易显出数据中的最高点或最低点、转折点、周期性以及其他特性等。当图形作得足够准确时,可以不必知道变量间的数学关系,对变量求微分或积分后即得到需要的结果。
1)图形表示法的适用场合
①已知变量间的依赖关系图形,通过实验,将获得的数据作图,然后求出相应的一些参数。
②两个变量之间的关系不清,将实验数据点绘于坐标纸上,用以分析、反映变量之间的关系和规律。
2)图形表示法的步骤
①坐标纸的选择 常用的坐标纸有直角坐标纸、半对数坐标纸和双对数坐标纸等。选择坐标纸时,应根据研究的变量间的关系,确定选用哪一种坐标纸。坐标不宜太密或太稀。
②坐标分度和分度值标记 坐标分度是指沿坐标轴规定各条坐标线所代表的数值的大小。进行坐标分度应注意下列几点。
a.一般以x轴代表自变量,y轴代表因变量。在坐标轴上应注明名称和所用计量单位。分度的选择应使每一点在坐标纸上都能够迅速方便地找到。例如,图4-2(b)的横坐标分度不合适,读数时,图4-2(a)比图4-2(b)方便得多。
图4-2 反应器对挥发性脂肪臭气的体积去除负荷与运行时间t的关系
b.坐标原点不一定就是零点,也可用低于实验数据中最低值的某一整数作起点,高于最高值的某一整数作终点。坐标分度应与实验精度一致,不宜过细,也不能过粗。图4-3中的(a)和(b)分别代表两种极端情况,(a)图的纵坐标分度过细,超过实验精度,而(b)图分度过粗,低于实验精度,这两种分度都不恰当。
图4-3 某反应器出口吸收液的BOD与时间t的关系曲线
c.为便于阅读,有时除了标记坐标纸上的主坐标线的分度值外,还在一细副线上也标以数值。
③根据实验数据描点和作曲线 描点方法比较简单,把实验得到的自变量与因变量一一对应的点标在坐标纸上即可。若在同一图上表示不同的实验结果,应采用不同符号加以区别,并注明符号的意义。
作曲线的方法有如下两种。
a.数据不够充分、图上的点数目较少,不易确定自变量与因变量之间的关系,或者自变量与因变量间不一定存在函数关系时,最好是将各点用直线连接,如图4-4所示。
图4-4 喷淋液流量对氯苯去除率的影响
××年××月××日生物滴滤塔出水测试结果,××大学
b.实验数据充分,图上点数足够多,自变量与因变量呈函数关系时,则可作出光滑连续的曲线,如图4-5所示的BOD曲线。
图4-5 在同一图上表示不同的实验结果
甲反应器出口吸收液;×乙反应器出口吸收液
④注解说明 每一个图形下面应有图名,将图形的意义清楚准确地表述出来,有时在图名下还需加简要说明。此外,还应注明数据的来源,如作者姓名、实验地点、日期等(见图4-5)。
(3)方程表示法
实验数据用列表或图形表示后,使用时虽然较直观简便,但不便于理论分析研究,故常需要用数学表达式来反映自变量与因变量的关系。
方程表示法通常包括下面两个步骤。
1)选择经验公式 表示一组实验数据的经验公式应该是形式简单紧凑,式中系数不宜太多。一般没有一个简单方法可以直接获得一个较理想的经验公式,通常是先将实验数据在直角坐标纸上描点,再根据经验和解析几何知识推测经验公式的形式,若经验表明此形式不够理想,则应另立新式,再进行实验,直至得到满意的结果为止。表达式中容易直接用于实验验证的是直线方程,因此,应尽量使所得函数的图形呈直线式。若得到的函数的图形不是直线式,可以通过变量变换,使所得图形变为直线。
2)确定经验公式的系数 确定经验公式中系数的方法有多种,在此仅介绍直线图解法和回归分析中的一元线性回归、回归线的相关系数与精度以及一元非线性回归。
①直线图解法 凡实验数据可直接绘成一条直线或经过变量变换后能变为直线的,都可以用此法。具体方法如下:将自变量与因变量一一对应的点绘在坐标纸上,作直线,使直线两边的点差不多相等,并使每一点尽量靠近直线。所得直线的斜率就是直线方程y=a+bx中的系数b,直线在y轴上的截距就是直线方程中的a。直线的斜率可用直角三角形的Δy/Δx的比值求得。
直线图解法的优点是简便,但由于各人用直尺凭视觉画出的直线可能不同,因此,精度较差,当问题比较简单或者精度要求低于0.2%~0.5%时可以用此法。
②一元线性回归 一元线性回归就是工程上和科研中常常遇到的配直线的问题,即两个变量x和y存在一定的线性相关关系,通过实验取得数据后,用最小二乘法求出系数a和b并建立回归方程y=a+bx(称为y对x的回归线)。
用最小二乘法求系数时,应满足以下两个假定:一是所有自变量的各个给定值均无误差,因变量的各值可带有测定误差;二是最佳直线应使各实验点与直线的偏差的平方和为最小。
由于各偏差的平方均为正数,如果平方和为最小,说明这些偏差很小,所得的回归线即为最佳线。计算式如下
(4-36)
(4-37)
式中
(4-38)
(4-39)
(4-40)
(4-41)
一元线性回归的计算步骤为:将实验数据列入一元回归计算表(见表4-4),并计算;根据式(4-36)和式(4-37)计算a、b的值,得一元线性回归方程
表4-4 一元线性回归计算表
③回归线的相关系数与精度 用上述方法配出的回归线是否有意义?两个变量间是否确实存在线性关系?在数学上引进了相关系数r来检验回归线有无意义,用相关系数的大小判断建立的经验公式是否正确。相关系数r是判断两个变量之间相关关系的密切程度的指标,它有下述特点。
a.相关系数是介于-1与1之间的某任意值。
b.当r=0时,说明变量y的变化可能与x无关,这时x与y没有线性关系,如图4-6所示。
图4-6 x与y无线性关系
c.当0<|r|<1时,x与y之间存在着一定线性关系。当r>0时,直线斜率是正的,y值随x增大而增大,此时称x与y为正相关(见图4-7);当r<0时,直线斜率是负的,y随若x的增大而减小,此时称x与y为负相关(见图4-8)。
d.当|r|=1时,x与y完全线性相关。当r=1时,称为完全正相关(见图4-9);当r=-1时,称为完全负相关(见图4-10)。
相关系数只表示x与y线性相关的密切程度,当|r|很小甚至为零时,只表明x与y之间线性相关不密切,或不存在线性关系,并不表示x与y之间没有关系,可能两者存在着非线性关系(见图4-6)。
图4-7 x与y为正相关
图4-8 x与y为负相关
图4-9 x与y完全正相关
图4-10 x与y完全负相关
相关系数计算式如下
(4-42)
相关系数的绝对值越接近于1,x与y的线性关系越好。
附录3给出了相关系数检验表,表中的数称为相关系数的起码值。求出的相关系数大于表中的数时,表明上述用一元线性回归配出的直线是有意义的。
回归线的精度用于表示实测的y值偏离回归线的程度。回归线的精度可以用标准误差(这里的标准误差称为剩余标准差)来估计,其计算式为
或
式中,为xi代入的计算结果。
显然S越小,yi离回归线越近,则回归方程精度越高。
④一元非线性回归 在环境科学与工程中遇到的问题,有时两个变量之间的关系并不是线性关系,而是某种曲线关系(如生化需氧量曲线)。这时,需要解决选配恰当类型的曲线以及确定相关函数中系数等问题。具体步骤如下。
a.确定变量间函数的类型的方法有两种:根据已有的专业知识确定,例如,生化需氧量曲线可用指数函数Lt=Lu(1-)来表示;事先无法确定变量间函数关系的类型时,先根据实验数据作散布图,再从散布图的分布形状选择适当的曲线来配合。
b.确定相关函数中的系数:确定函数类型以后,需要确定函数关系式中的系数。其方法如下:通过坐标变换(即变量变换)把非线性函数关系转化为线性关系,即化曲线为直线;在新坐标系中用线性回归方法配出回归线;还原回原坐标系。
c.如果散布图所反映的变量之间的关系与两种函数类型相似,无法确定选用哪一种曲线形式更好时,可以都作回归线,再计算它们的剩余标准差并进行比较,选择剩余标准差小的函数类型。
下面介绍一些常用的函数图形,它们经过坐标变换后可化成直线。
双曲线函数见图4-11。
令则有
y'=a+bx'
图4-11 双曲线函数的曲线
幂函数见图4-12。
y=axb
令y'=lgy,x'=lgx,a'=lga,则有
y'=a'+bx'
图4-12 幂函数y=axb的曲线
指数函数见图4-13。
y=aebx
令y'=lny,a'=lna,则有
y'=a'+bx
图4-13 指数函数y=aebx的曲线
指数函数见图4-14。
y=aeb/x
令则有
y'=a'+bx'
图4-14 指数函数y=aeb/x的曲线
对数函数见图4-15。
y=a+blgx
令x'=lgx,则有
y=a+bx'
图4-15 对数函数y=a+blgx的曲线
S形函数见图4-16。
令则有
y'=a+bx'
图4-16 S形函数y=的曲线