3D计算机视觉:原理、算法及应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 人类视觉及特性

计算机视觉(也有人称之为人工视觉或人造视觉)是在人类视觉的基础上发展起来的。这里有两层含义,一层是计算机视觉要实现人类视觉的功能,所以可以/需要模仿人类视觉的系统构造和功能模块;另一层是计算机视觉要扩展人类视觉的功能,所以也可以/需要借助人类视觉的特性来提升所实现的功能的效率和效果。

下面先对人类视觉的特点进行概括介绍,再讨论重要的亮度、空间和时间特性,最后对视知觉进行简单介绍。

1.1.1 视觉特点

先将视觉与一些相关概念进行比较。

1.视觉和其他感觉

一般认为,人类有视觉、听觉、嗅觉、味觉和触觉这五种感受客观世界的感觉能力及相应的感觉器官。其中,视觉为人类提供了大部分数据,或者说,人类在认识世界时对视觉比对其他感觉更为依赖。例如,人类通过眼睛获得的输入信息量常达几百万比特,在连续观看时的数据率可以超过几千百万比特/秒。人类大脑拥有超过100亿个细胞/神经元,其中一些神经元与其他神经元的连接(或突触)数量超过1万个。据估计,大脑通过眼睛接收的视觉信息量比通过其他感官获得的所有信息量至少大两个数量级。

2.视觉和计算机视觉

虽然计算机视觉要实现人类视觉的功能,但人类视觉和计算机视觉还是有不同之处的。人类视觉先通过视觉系统的感觉器官(眼睛)接收外界环境中一定波长范围内的光刺激(到视网膜上),然后利用视觉系统的感知器官(大脑或大脑视觉皮层)进行编码加工以获得主观感觉。所以视觉不仅涉及物理、化学原理或理论,还涉及心理、生理学原理或理论。计算机视觉主要依靠光电转换进行图像采集,通过处理分析获得客观数据,并据此进行较严格的推理判断。

3.视觉和机器视觉

早期,计算机视觉更多地强调对视觉科学和设计系统与软件的研究,而机器视觉不仅考虑设计系统与软件,还考虑硬件环境、图像采集技术及视觉系统的集成。所以,从视觉系统集成的角度考虑,机器视觉系统与人类视觉系统更有可比性。不过,随着电子技术和计算机技术的发展,在独立PC上已可实现真实和实时的应用程序。另外,由于相关领域知识的增多,机器视觉和计算机视觉的区别已显著弱化,而更多地互替使用。

4.视觉和图像生成

视觉可看作基于物体图像,借助图像的形成规律获得对物体的描述解释的过程;图形学中的图像生成则可看作基于物体的抽象描述,借助图像的形成规律生成图像的过程。虽然它们有相似之处,有时被认为互为逆过程,但它们的复杂程度大不相同。图像生成过程是完全确定且可以预测的,而视觉过程不仅要提供所有可能的解释清单,还要提供最可能的解释,这个搜索过程是一对多的,而且可能伴随组合爆炸。所以视觉在本质上比图形学中的图像生成复杂得多。

1.1.2 视觉的亮度特性

视觉的亮度对应人眼感受到的物体的光强度。与亮度密切相关的一个心理学名词是主观亮度,主观亮度指人眼依据视网膜感受到的光刺激的强弱判断出的被观察物体的亮度。三个典型的视觉亮度特性如下。

1.同时对比度

从物体表面感受到的主观亮度不仅与表面自身亮度有关,也与表面和周围环境(背景)亮度之间的相对关系有关。如果两个自身亮度不同的物体与各自的背景有类似的亮度相对关系(比值),则它们可能看起来有相同的亮度。此时,人们感知到的主观亮度与物体自身亮度的绝对值无关。反之,同一个物体表面,如果放在较暗的背景里就会显得比较亮,而放在较亮的背景里就会显得比较暗。这种现象称为同时对比度,也称为条件对比度

例1-1 同时对比度示例

在图1-1中,所有位于中心的小正方形都有完全一样的亮度(自身亮度)。但是,当它处在暗背景中时看起来要亮些,而当它处在亮背景中时看起来要暗些。所以,感觉上这4幅图像从左向右,中心的小正方形逐渐变暗。

图1-1 同时对比度示例

2.马赫带效应

在物体亮度不同的区域边界处,人类视觉有可能过高或过低地估计亮度值。换句话说,从一个物体表面感受到的主观亮度并不是物体所受照度的简单比例函数。这个现象由马赫发现,所以称为马赫带效应

例1-2 马赫带效应示例

图1-2(a)是一个马赫带图形,包括三个部分:左侧是均匀的低亮度区,右侧是均匀的高亮度区,中间是从低亮度向高亮度逐渐过渡的区域。图1-2(b)给出从左到右的实际亮度分布(三段直线)。人们用眼睛观察图1-2(a)可以发现:在左侧区和中间区的交界处有一条比左侧区更暗的暗带,在中间区和右侧区的交界处有一条比右侧区更亮的亮带,即有如图1-2(c)所示的主观亮度。事实上,暗带和亮带在客观上都不存在,它们只是主观亮度的感受结果。

图1-2 马赫带效应示例

3.对比敏感度

对比敏感度(也称为对比感受性)反映人眼区分亮度差别的能力,受观察时间和被观察目标的大小影响。如果用由粗细不同、对比度不同的线条组成的栅格进行测试,人眼所觉察到的栅格亮暗线条之间的对比度与原测试栅格亮暗线条之间的对比度越接近,就认为对比敏感度越大。在理想条件下,视力好的人能够分辨0.01的亮度对比,即对比敏感度最大可达100。

如果用横坐标代表测试栅格亮暗线条的粗细程度,用纵坐标代表对比敏感度,则实测结果给出视觉系统的调制传递函数,即给出人的视觉系统将测试图像准确转换成光学图像的能力。这里测试栅格亮暗线条的粗细程度可用空间频率表示,其单位为每度视角中包含的周数(线条数目),即周/度(CPD)。

对比敏感度可用光的调制系数M来规范,设LmaxLminLav分别代表最大、最小和平均亮度值,则有

1.1.3 视觉的空间特性

视觉首先(且主要)是对空间的感受,所以视觉的空间特性对视觉效果影响很大。

1.空间累积效应

视觉在空间上有累积效应。人眼可感受的光刺激强度的范围可达约13个数量级。如果用光照度来描述,最低的绝对刺激阈值为10-6 lx(勒[克斯]),而最高的绝对刺激阈值超过107 lx。在最佳条件下,视网膜边缘区域中的每个光量子都会被一个柱细胞吸收,此时仅需要几个光量子即可引起视觉响应。这被认为有了完全的空间累积作用,并可用光强度和面积的反比定律来描述。这个定律可写成

其中,Ec是视觉的绝对阈值,为50%觉察概率所需的临界光能量(在多次试验中,每两次试验中有一次观察到光刺激时的光能量);A为累积面积;L为光亮度;k为常数,与EcAL所用的单位有关。注意,能使上述定律成立的累积面积A有一个临界值Ac(对应直径约为0.3 rad的圆立体角),即当AAc时,上述定律成立,否则上述定律不成立。

由此可见,空间累积效应可以理解为当小而弱的光点单独呈现时,其可能无法被看见(不能引起视觉响应),但是当多个这样的光点连在一起作为一个大光点同时呈现时,其便能被看见。它的机能意义在于,很大的物体在较暗的环境中,即使轮廓模糊也可能被看见。

2.空间频率

空间频率对应视觉影像在空间中的变化速度。这可用亮度按空间呈正弦变化的条纹来进行测试,亮度函数为Yxy)=B(1+mcos2πfx)。其中,B为基本亮度;m为振幅(对应黑白对比度);f为条纹频率(对应条纹宽度)。空间分辨能力可在f为固定值时,通过改变m值来进行测试。显然,m值越大,空间分辨能力越强。在实际应用中,测试不同角度频率下可分辨亮暗条纹的最小m值,可定义1/m分(′)为对比敏感度。

人眼对空间频率的感觉相当于一个带通滤波器(对中间粗细的条纹较敏感),最敏感为2~5个CPD,空间截止频率为30个CPD。

当人观察一段静止影像时,眼球并不会停留在某处,通常在停留于一处几百毫秒并完成取像后会移到别处取像,如此持续不断,这称为跳跃性运动。研究表明,跳跃性运动可以增大对比敏感度,但敏感度峰值会降低。

3.视敏度/视锐度

视敏度/视锐度又称为视力,通常定义为人眼在一定条件下能够分辨的最小细节所对应的视角值的倒数,视角越小,视敏度越大。如果用V表示视敏度,则V=1/视角值。它反映人眼正确分辨物体细节和轮廓的能力。视敏度为1对应当视角为1°时在标准距离下的分辨能力。人眼实际的分辨视角是30″~60″(与约0.004 mm的锥细胞直径基本吻合),即最好的视力可达2.0。

视敏度受许多因素的影响,包括以下几点。

(1)距离:当物体与观察者之间的距离增加时,人眼的视敏度随之下降,这种现象在10 m左右时最明显,超过一定的距离限度,则再也无法识别物体的细节。

(2)亮度:增加物体亮度(或增大瞳孔)可提高视敏度。视敏度与亮度I的关系为

其中,ab为常数。视敏度随亮度增加而对数提高,当亮度增加到一定程度时,视敏度趋于饱和,不再提高。

(3)物体与背景的对比度:对比度加大则视敏度提高,对比度减小则视敏度降低。

(4)视网膜部位:视网膜上不同部位的视敏度不同。中央凹附近感受细胞密度最大,视敏度也最大;离中央凹越远的部位,其视敏度越低。

人在观察物体时,最好的视敏度是在物体位于人眼前0.25 m处、照度为500 lx(相当于将一个60 W的白炽灯放在距人眼0.4 m处)时得到的。此时,人眼可以区分的两点之间的(最小)距离约为0.00016 m。

1.1.4 视觉的时间特性

在视觉感知中,时间因素也非常重要,这可从三个方面解释:

(1)大多数视觉刺激是随时间变化的,或者说是顺序产生的;

(2)人眼一般是不停运动的,这使得大脑获取的信息不断变化;

(3)感知本身并不是一个瞬间的过程,因为信息处理总是需要时间的。

另外,在视觉感知中,一个接一个快速到来的光刺激有可能互相影响。例如,后一个到来的光刺激有可能降低前一个光刺激的感知敏感度,这种现象常称为视觉屏蔽,它使感知到的反差减小,从而降低感知的视敏度。

1.随时间变化的视觉现象

有些视觉现象是随时间变化的,下面给出两个比较明显的例子。

1)亮度适应

人眼对外界亮度敏感的范围很大,从暗视觉门限到眩目极限,约为10-6~107 cd/m2(坎[德拉]每平方米)。不过,人眼并不能同时在这么大的范围内工作,它靠改变具体的敏感度范围来实现亮度适应。参见图1-3,在一定条件下,人眼当前的敏感度称为亮度适应级。人眼在某一时刻所能感受到的亮度范围(主观亮度范围)是以此亮度适应级为中心的一个小区段。

图1-3 人眼敏感的亮度范围

在实际场景中的任何时刻,人眼感受到的最大亮度和最小亮度之比很少会超过100。最小亮度和最大亮度在光亮的房间中分别为1cd/m2和100cd/m2,在室外场景中分别为10cd/m2和1000cd/m2,而在晚上(无照明)分别为0.01cd/m2和1cd/m2。注意,当眼睛遍历图像时,平均背景的变化会导致各适应级上不同的增量变化,其结果是眼睛有能力区分比各实体场景中能区分的亮度级高许多的总亮度级。

当人眼遇到亮度突然变化的情况时,会暂时停止工作(看不见)以尽快适应新的亮度。人眼对亮光的适应比对暗光的适应要快。例如,当人离开电影院走到阳光下时,正常的视觉能很快恢复,但人从阳光下进入电影院,则需要相当长的时间才能把所有东西都看清楚。定量地说,人眼对亮光的适应只需要几秒(s),而对暗光的完全适应则需要35~45 min(其中约有10 min是要让锥细胞达到最大敏感度,其余时间则是要让柱细胞达到最大敏感度)。

2)眼睛的时间分辨率

很多实验表明,人眼能感知到两种不同步的亮度现象,只要能在时间上将它们分开。其中,一般需要60~80μs(微秒)的时间来有把握地区分它们,另外需要20~40μs的时间来确定哪个亮度现象先出现。从绝对时间上讲,这个间隔不长,但与其他感知过程相比还是相当长的,如听觉系统的时间分辨率只有几μs。

另外,当入射光的强度变化频率不太高时,视觉系统能感知到入射光强的变化,其效果就像让人看到了间断的“闪烁”(Flicker)。而在变化频率增加且超过临界(Critical)频率(其值依赖光的强度)后,这种效果就消失了,人们好像观察到连续平稳的光。对于中等强度的光,上述临界频率约为10Hz,但对于强光,这个频率可以达到1000Hz。

2.时间累积效应

视觉在时间上也有累积效应。当对一般亮度(光刺激不太大)的物体进行观察时,接收光的总能量E与物体可见面积A、表面亮度L和时距(观察时间长度)T都成正比,如令Ec表示以50%的概率觉察到所需的临界光能量,则有

式(1-4)成立的条件是TTcTc为临界时距。式(1-4)表明,在小于Tc的时间范围内,人眼受刺激的程度和刺激的时距成正比;若时距超过Tc,则不再有时间累积效应

3.时间频率

时间频率对应视觉影像随时间变化的速度,可用亮度按时间呈正弦变化的条纹来测试,亮度函数为Yt)=B(1+mcos2πf t)。其中,B为基本亮度;m为振幅(对应黑白对比度);f为条纹频率(对应条纹宽度)。时间分辨能力可在f为固定值时,通过改变m值来进行测试,从而确定对比敏感度

实验表明,时间频率响应还和平均亮度有关。在一般室内光强下,人眼对时间频率的响应近似一个带通滤波器。人眼对15~20Hz的信号最敏感,会有很强的闪烁感,当时间频率大于75Hz时,响应为0,闪烁感消失。恰好使闪烁感消失的频率称为临界闪烁频率/临界融合频率(CFF)。在较暗的环境下,响应多呈现低通特性,CFF降低,这时人眼对5Hz的信号最敏感,当时间频率大于25Hz时,闪烁基本消失。例如,电影院环境很暗,放映机的刷新率只要达到24Hz就不会使观众感到闪烁,这样可以减少胶卷用量和降低机器的转速。而计算机显示器亮度较高,刷新率需要达到75Hz,闪烁感才会消失。在闪烁消失后,亮度感知等于亮度的时间平均值。

这种低通特性也可以解释为视觉暂留特性,即当影像消失/变化时,大脑内的影像不会立刻消失,而会短暂地保留一段时间。生活中的动态模糊、运动残像也与此有关。

1.1.5 视知觉

视觉是人类了解世界的重要功能。视觉包括“视”和“觉”,所以也可进一步分为视感觉和视知觉。在很多情况下,常把视感觉称为视觉,但实际上视知觉更重要也更复杂。

1.视知觉与视感觉

人们不仅需要从外界获得信息,还需要对信息进行加工才能做出判断和决策。所以,人的视觉、听觉、嗅觉、味觉、触觉等功能都可分为感觉和知觉两个层次。感觉是较低层次的,主要接收外部刺激;知觉则处于较高层次,要将外部刺激转化为有意义的内容。一般来说,感觉对外部刺激基本不加区别地完全接收,而知觉则要确定外部刺激的哪些部分可组合成所关心的“目标”或对外部刺激的源的性质进行分析并做出判断。

视感觉主要从分子的观点来理解光(可见辐射)的基本性质(如亮度、颜色),涉及物理学、化学等。其主要研究的内容有:①光的物理特性,如光量子、光波、光谱等;②光刺激视觉感受器官的程度,如光度学、眼睛构造、视觉适应、视觉的强度和灵敏度、视觉的时空特性等;③在光作用于视网膜并经视觉系统加工后产生的感觉,如明亮程度、色调等。

视知觉主要研究人在从客观世界接收视觉刺激后如何反应及反应采用的方式和获得的结果。它研究如何通过视觉形成关于外在世界的表象,所以兼有心理因素。视知觉是在神经中枢内进行的一组活动,对视野中一些分散的刺激加以组织,形成具有一定形状和结构的整体,并据此认识世界。早在两千多年前,亚里士多德就将视知觉的任务定义为确定“什么东西在什么地方”(What is where)。近年来,其内涵和外延都有所扩展。

人们知觉的客观事物具有多种特性,对于不同的光刺激,视觉系统会产生不同形式的反应,所以视知觉又可分成亮(明)度知觉、颜色知觉、形状知觉、空间知觉、运动知觉等。需要注意的是,在各种知觉中,有些知觉依照刺激物理量的变化而变化,如亮度依赖光的强度,颜色依赖光的波长,但有些知觉(如空间、时间和运动知觉)与刺激物理量之间没有确切的对应关系。具有确切对应关系的知觉比较容易分析,而没有确切对应关系的知觉则要结合其他知识综合考虑。

2.视知觉的复杂性

视觉过程包括三个子过程:光学过程、化学过程和神经处理过程(可参见《2D计算机视觉:原理、算法及应用》一书)。在光学过程中,人眼接收到的辐射能量会经过人眼内的折光系统(包括晶状体、瞳孔、角膜、房水、玻璃体等),按照几何规律最终在视网膜上成像。在视网膜上形成的视觉图案可称为视网膜图像,这个纯光学图像之后由视网膜上的化学系统转化为完全不同的形式/类型。注意,视网膜图像只是视觉系统对光进行加工的过程中的一个中间结果,可看作视感觉和视知觉的分界。与在其他场合中使用的“图像”不同,人们并不能看到自己的视网膜图像,只有使用特殊装置的眼科专家等可以看到。视网膜图像与人工图像最明显的区别是,视网膜图像仅聚焦于中心,而人工图像(用来表现一个移动眼睛的视域)则均匀聚焦。

视知觉是一个复杂的过程,在很多情况下,只依靠视网膜图像和已知的眼睛/神经系统的工作机制难以把全部(知觉)过程解释清楚。这里用两个有关感知的例子来说明这个问题。

1)视觉边缘的感知

视觉边缘指从一个视点观察到的两个不同亮度的表面间的边界,这里亮度的差异可以有许多原因,如光照不同、反射性质不同等。视觉边缘可能会随视点的变化而改变位置,则对被观察物体的认知影响可能随观察位置的不同而不同。对视觉边缘的感知既受客观因素的影响,也受主观因素的影响。

2)亮度对比的感知

视觉系统主要感知的是亮度的变化而不是亮度本身,一个物体表面的心理亮度是由它与周围环境亮度(特别是背景)的关系决定的。如果两个物体与各自的背景有相似的亮度比例,那么它们看起来有相近的亮度,这和它们自身的绝对亮度没有关系。反过来,同一个物体如果放在较暗的背景中,会显得比放在较亮的背景中更亮。

视觉系统可将对亮度的感知与对视觉边缘的感知联系起来。对于两个可视表面的亮度,仅当它们可看作处在同一个视觉平面上时可利用感知进行比较。如果它们与眼睛之间有不同的距离,要比较它们的相对亮度就很困难。类似地,当一个视觉边缘是在一个表面上由于照明不同而产生的(边缘两侧分别为有光照射区域和阴影区域),那么边缘两边的亮度差会加强。