2.2 采集模型
图像采集中的主要模型包括几何成像模型和亮度成像模型。在图像表达f(x,y)中,(x,y)表示像素的空间位置,是由成像时的几何成像模型所确定的,而f 表示像素的幅度数值(灰度),是由成像时的亮度成像模型所确定的。
2.2.1 几何成像模型
图像采集的过程从几何角度可看作是一个将客观世界的场景通过投影进行空间转化的过程,例如用照相机或摄像机进行图像采集时要将3-D客观场景投影到2-D图像平面,这个投影过程可用投影变换(也称为成像变换或几何透视变换)描述。一般情况下,客观场景、摄像机和图像平面各有自己不同的坐标系统,所以投影成像涉及到在不同坐标系统之间的转换。这里考虑以下 3个坐标系统。
(1)世界坐标系统:也称真实或现实世界坐标系统XYZ,它是客观世界的绝对坐标(所以也称客观坐标系统)。一般的3-D场景都是用这个坐标系统来表示的。
(2)摄像机坐标系统:是以摄像机为中心制定的坐标系统xyz,一般取摄像机的光学轴为z轴。
(3)图像平面坐标系统:是在摄像机内形成的图像平面的坐标系统 x'y′。一般取图像平面与摄像机坐标系统的xy平面平行,且x轴与x'轴、y轴与y'轴分别重合,这样图像平面的原点就在摄像机的光学轴上。
根据前面3个坐标系统之间不同的相互关系,可以得到不同的摄像机模型。下面介绍两个最为典型的模型(考虑x轴与x'轴、y轴与y'轴分别重合,图像平面坐标系统可用xy表示)。
1.重合模型
下面先考虑摄像机坐标系统xyz与世界坐标系统XYZ重合的简单情况。图2.2.1所示为此时的基本几何模型示意图,其中图像平面的中心处于原点,镜头中心的坐标是(0,0,λ),λ是镜头的焦距。
图2.2.1 投影变换中的重合模型示意图
下面讨论投影变换成像中,空间点坐标和图像点坐标之间的几何关系。设(X,Y,Z)是3-D空间中任意点W的世界坐标。在以下的讨论中假设Z >λ,即所有客观场景中感兴趣的点都在镜头的前面。先考虑点W(X,Y,Z)与其投影到图像平面的坐标间的联系,这可以借助相似三角形方便地得到。参见图2.2.1,有以下两式成立。
式中X和Y前的负号代表图像点反转了。由以上两式可得到3-D点投影后的图像平面坐标:
上述投影变换将3-D空间中(除了沿投影方向以外)的线段投影为图像平面上的线段。如果在3-D空间互相平行的线段也平行于投影平面,则这些线段在投影后仍然互相平行。3-D空间的矩形投影到图像平面后可能为任意四边形,由4个顶点所确定,因此,常有人将投影变换称为4点映射。
例2.2.1 归一化摄像机
归一化摄像机指焦距为1的特定摄像机,也指一种简化的重合模型。图2.2.2所示为该模型中的一个剖面(X为常数的YZ平面),其中,x轴和X轴都由纸内向外,y轴和Y轴都由上向下,z轴和Z轴都由左向右。图像中对应世界坐标系中一点W = [X,Y,Z]T的y坐标是Y/Z(x坐标是X/Z)。可见,对较远的目标,其投影更靠近图像中心。
图2.2.2 归一化摄像机
例2.2.2 摄像机焦距参数
实际中使用的摄像机焦距并不总是 1,且在图像平面上是使用像素而不是物理距离来表示位置的。将这两个因素考虑上,参照图2.2.2,图像平面坐标与世界坐标的联系是(s是尺度因子):
这里需要注意,焦距的改变和传感器中光子接收单元的间距变化都会影响图像平面坐标点与世界坐标点的联系。如图2.2.3(a)和(b)所示,当焦距减为一半时,成像尺寸(如y)也减为一半。不过视场是随焦距的减小而增加的。如图2.2.3(c)和(d)所示,用像素为单位确定的成像尺寸随传感器单元间距的增加而减小,当传感器密度(对应个数)减为一半时,成像像素数也减为一半。综合起来,焦距和传感器密度都以相同的方式改变从场景到像素的映射关系。
图2.2.3 焦距和传感器单元间距变化的效果
如果考虑图像平面上的传感器单元的间距在X和Y方向上可以不同,则需要两个尺度因子:
这两个尺度因子常被称为焦距参数。但这种说法有时容易误导人,因为它们并不仅依赖于光学中心和主点间的距离(这是真正的焦距),还依赖于传感器单元之间的距离。
前面的式(2.2.3)和式(2.2.4)都是非线性的,因为它们的分母中有变量 Z。非线性的形式对描述和分析都不太方便,为此,可以考虑使用齐次坐标来表示世界坐标系统XYZ和摄像机坐标系统 xyz。这样就可将坐标系统之间的转换线性化,从而可用矢量和矩阵的形式来简洁地表示投影成像过程。例如,一个世界坐标系统中的点可用笛卡儿坐标矢量形式表示为
则该点对应的齐次坐标矢量形式(加下标h)为
其中 k 是一个任意的、非零值的常数。很明显,将齐次坐标形式转换为笛卡儿坐标形式可用前 3个坐标量去除以第4个坐标量而实现。
类似地,一个摄像机坐标系统中的点用矢量形式可表示为
则该点对应的齐次坐标矢量形式为
例2.2.3 齐次坐标
考虑两条用齐次坐标矢量形式表示的2-D直线:L1= [1,0,1],L2= [3,0,1]。现要确定使它们相交的点。事实上,一个3×1的齐次点矢量x必定同时满足和。换句话说,它与L1和L2都正交。所以,为确定这个与L1和L2都正交的矢量,可计算L1和L2的交叉积:
注意所给两条直线是平行的,所以它们的相交点在无穷远处(齐次表达的最后一项为0)。
利用齐次坐标矢量形式,如果定义投影变换矩阵为
则从世界坐标点W向图像平面的投影可用其齐次坐标矢量wh和P的乘积Pwh给出,即
这里矢量 ch的各个元素分别给出齐次形式的摄像机坐标,这些坐标可用 ch的前 3 项分别去除以第4项转换成笛卡儿形式。很容易验证,转换为笛卡儿坐标后的图像平面坐标仍满足式(2.2.3)和式(2.2.4)。
根据前面的讨论,将3-D客观世界的每一点投影到2-D图像平面上都有唯一对应的一个点。反过来,给定一个图像点,它都对应于3-D客观景物中唯一的一个点吗?从数学角度,利用矩阵运算规则可由式(2.2.14)得
其中逆投影变换矩阵P −1是
但由图2.2.1可知,2-D图像平面上的每个点都可能是3-D客观世界中处于一条直线上的所有的点的投影结果。事实上,这条直线的方程在世界坐标系统中仍可由式(2.2.3)和式(2.2.4)得到,如果从中反解出X和Y,则有
由以上两式可知,要确定投影到图像点的一个3-D空间点的X和Y坐标还需要知道它的Z坐标,否则不可能将一个3-D点的坐标从它的图像中完全恢复过来。换句话说,仅根据一个像素在图像平面的位置,不能唯一地确定是世界坐标系统中哪个位置的景物所成的像。
从本质上讲,空间场景经过投影变换到图像平面上后损失了一部分信息(距离信息),所以需要先将这部分信息恢复过来,才能将图像点返回到空间场景中。
2.分离模型
下面考虑摄像机坐标系统 xyz 与世界坐标系统XYZ不重合的情况。图2.2.4所示为此时的成像过程的几何模型示意图。图像平面的中心(也是摄像机坐标系统 xyz 的原点)与世界坐标系统的位置偏差用矢量D表示,其分量分别为 Dx,Dy,Dz。这里假设摄像机的扫视角(x和X轴间的夹角)为γ,而倾斜角(z和Z轴间的夹角)为α。如果将XY平面考虑为地球的赤道面,让Z轴指向地球北极,则扫视角对应经度,而倾斜角对应纬度。
图2.2.4 世界坐标系统与摄像机坐标系统不重合时的投影成像示意图
这个世界坐标系统与摄像机坐标系统不重合的摄像机模型可通过以下一系列步骤转换为前面的重合模型:① 将图像平面原点按矢量 D 移出世界坐标系统的原点;② 以某个 γ 角(绕z轴)扫视x轴;③ 以某个α 角将z轴倾斜(绕x轴旋转)。
让摄像机相对世界坐标系统运动也等价于让世界坐标系统相对摄像机逆运动。具体来说,可对每个世界坐标系统中的点分别进行上述几何关系转换所采取的3个步骤。平移世界坐标系统的原点到图像平面原点可用下列平移矩阵完成。
换句话说,位于坐标为(Dx,Dy,Dz)的齐次坐标点Dh经过变换TDh后位于变换后新坐标系统的原点。
进一步考虑如何将坐标轴重合的问题。扫视角 γ 是x和X轴间的夹角。为了以需要的 γ 角扫视x轴,只需将摄像机逆时针(以从旋转轴正向看原点来定义)绕z轴旋转 γ 角,即
没有旋转(γ = 0°)的位置对应x和X轴平行。类似地,倾斜角 α 是z和Z轴间的夹角,可以将摄像机逆时针绕x轴旋转 α 角以达到倾斜摄像机α 角的效果,即
没有倾斜(α = 0°)的位置对应z和Z轴平行。
分别完成以上两个旋转的变换矩阵可以被级连成为一个统一的旋转矩阵:
这里R代表摄像机在空间旋转带来的影响。
如对空间点的齐次坐标Wh进行上述一系列变换RTWh,就可把世界坐标系统与摄像机坐标系统重合起来。一个满足图2.2.4所示的几何关系的摄像机观察到的齐次世界坐标点在摄像机坐标系统中具有如下的齐次表达:
其中P为式(2.2.13)的透视变换矩阵。
用Ch的第1项和第2项去除以它的第4项可以得到世界坐标点成像后的笛卡儿坐标(x,y)。展开式(2.2.23)并将它转换为笛卡儿坐标可得到
它们给出了世界坐标系统中点W(X,Y,Z)在图像平面中的坐标。
例2.2.4 不重合模型中的图像平面坐标计算
设将一摄像机按图 2.2.5 所示的位置安置以观察场景。设摄像机中心位置为(0,0,1),摄像机的焦距为0.05 m,扫视角为 135°,倾斜角为 135°,现需要确定此时空间点W(1,1,0)的图像平面坐标。
图2.2.5 摄像机观察三维场景示意图
下面借助图 2.2.6 来介绍将摄像机由图2.2.1所示的正常(重合)位置转换到图2.2.5所示的特定(不重合)位置所需的步骤。图 2.2.6(a)所示为摄像机处在图2.2.1所示的正常位置时其与世界坐标系的关系。转换的第1步是将摄像机平移出原点,结果如图 2.2.6(b)所示。注意此步骤后世界坐标系统只是用来作为衡量角度的参考,即所有旋转都是绕新(即摄像机)坐标轴进行的。第2步是绕z轴旋转扫视,表示沿摄像机z轴扫视的观察面如图2.2.6(c)所示,其中z轴的指向为从纸中出来。注意,这里摄像机绕z轴的旋转是逆时针的,所以γ为正。第3步是绕x轴旋转倾斜,表示摄像机绕x轴旋转并相对z轴倾斜的观察面如图2.2.6(d)所示,其中x轴的指向为从纸中出来。摄像机绕x轴的旋转也是逆时针的,所以α为正。在图2.2.6(c)和(d)中,都使用虚线来表示世界坐标轴,以强调它们只用来建立角α和角γ的原始参考。
图2.2.6 对摄像机的平移和旋转
将前面给出的各参数值代入式(2.2.24)和式(2.2.25),可得W(1,1,0)点的像坐标为x = 0 m和y = - 0.008 837 488 m。
2.2.2 亮度成像模型
图像采集的过程从光度学的角度可看作是一个将客观景物的光辐射强度转化为图像灰度的过程。基于这样的亮度成像模型,从场景中采集到的图像的灰度值由两个因素确定:一个是场景中景物本身的亮度,另一个是成像时如何将景物亮度转化为图像灰度。
1.景物亮度
场景中景物本身的亮度与光辐射的强度是有关的。对发光的景物(光源),要考虑其辐射的功率或它的光辐射量。在光度学中,使用光通量表示光辐射的功率或光辐射量,其单位是lm(流明)。一个光源沿某个方向的亮度用其在该方向上的单位投影面积在单位立体角(单位是球面度sr)内发出的光通量来衡量,单位是cd / m2(坎[德拉]每平方米),其中cd 是发光强度的单位,1 cd =1 lm/sr。对不发光的景物,要考虑其他光源对它的照度。被光线照射的表面上的照度用照射在单位面积上的光通量来衡量,单位是lx(勒[克斯],或lux),1 lx = 1 lm / m2。
例2.2.5 照度和均匀照度
实际中的景物都是有一定尺寸的,当使用不同的光源时,景物上不同位置的照度有可能不同。
先考虑使用单个点光源的情况。如图2.2.7所示,景物被放在了坐标原点,光源在物体上高度h处,水平偏移为a,与物体实际距离是d,入射角为i (表面法线方向n与光源方向s间的夹角)。
图2.2.7 单个点光源照明的几何
考虑到辐射随距离平方衰减,则景物上一点的照度为(k 为常数因子):
上式表明,单个点光源的照明将导致景物表面不同位置产生非均匀的照度区域。如果对称地安置两个点光源,就有可能在连线上获得比较均匀的照度。参见图2.2.8,其中图2.2.8(a)表示对称地安置两个点光源;图 2.2.8(b)中实曲线表示两个光源各自产生的强度曲线,虚线表示联合的强度值;图2.2.8(c)表示将两个光源稍微拉远一些而得到的强度曲线。这里图2.2.8(b)对应消除二阶项,只剩下四阶或更高阶项的情况。图 2.2.8(c)代表把两个光源间距离适当加大,仍在强度波动的允许范围中,但可用(比较均匀的)照度范围尽可能大的情况。
图2.2.8 对称布置两个点光源照明的几何
如果将图2.2.8中的点光源换成条状光源(条与纸面垂直),则所获得的均匀照度的区域为细长矩形,如图2.2.9(a)所示。如果实际中需要长宽比为1的照度区域,而不是细长的照度区域,则可采用图 2.2.9(b)所示的由四个条状光源两两平行且互相正交的布置,所得到的均匀照度区域为正方形。图2.2.9(c)所示为用圆环形光源所得到的圆形均匀照度区域。
图2.2.9 为获得均匀照度区域的几种光源分布
在成像时,要考虑景物被照射后又辐射出的亮度。对不发光的景物,其亮度不仅取决于照射到景物表面的光通量(与景物表面法线方向以及入射光源强度和方向有关),还取决于景物表面入射光被反射后观察者接收到的光通量(与观察者相对景物的方位和距离以及景物表面的反射特性都有关)。更详细的讨论可参见10.2.1小节。
2.图像灰度
图像灰度是由景物亮度转化而来的,一般只有相对的意义。成像时如何将景物亮度转化为图像灰度可以遵循一定的规律。下面介绍一个简单的图像亮度成像模型。给定一幅图像f(x,y),这里也用f(x,y)表示图像在空间特定坐标点(x,y)位置的亮度。因为亮度实际是能量的量度,所以f(x,y)一定不为0且为有限值,即
考虑到光反射的几何因素可借助投影来归一化,所以f(x,y)基本上可由两个因素来确定:① 入射到可见景物上的光通量;② 景物对入射光反射的比率。它们可分别用照度函数i(x,y)和反射函数r(x,y)表示,也分别称为照度分量和反射分量。一些典型的r(x,y)值为:黑天鹅绒0.01,不锈钢0.65,粉刷的白墙平面0.80,镀银的器皿0.90,白雪0.93。因为f(x,y)与i(x,y)和r(x,y)都成正比,所以可以认为f(x,y)是由i(x,y)和r(x,y)相乘得到的,即
其中
式(2.2.29)表明入射量总是大于零(只考虑有入射的情况),但也不是无穷大(因为物理上应可以实现)。式(2.2.30)表明反射率在 0(全吸收)和 1(全反射)之间。以上两式给出的数值都是理论界限。需要注意i(x,y)的值是由光源决定的,而r(x,y)的值是由场景中的物体表面特性所决定的。
一般将单色图像f(x,y)在其坐标(x,y)处的亮度值称为图像在该点的灰度值(可用g表示)。根据式(2.2.28)~(2.2.30),g可在下列范围取值:
理论上对 Gmin的唯一限制是它应当为正值(即对应有入射,但一般取为 0),而对 Gmax的唯一限制是它应有限(参见式(2.2.27))。实际中,间隔[Gmin,Gmax]称为灰度值范围。一般常把这个间隔数字化地移到间隔[0,G)中(G为正整数,一般为2的整数次幂)。当g = 0时代表黑色,g = G-1时代表白色,而所有中间值代表从黑到白之间的灰度值。
2.2.3 空间和幅度分辨率
前面讨论的几何成像模型确定了图像所对应的空间视场,而亮度成像模型确定了图像的幅度范围。如果从所采集的图像来说,空间视场中的精度对应其空间分辨率,而幅度范围中的精度对应其幅度分辨率。前者对应数字化的空间采样点数,而后者对应采样点值的量化级数(对灰度图像指灰度级数,对深度图像指深度级数)。它们都是重要的图像采集装置的性能指标(见2.1节)。以 CCD 摄像机为例,图像的空间分辨率主要由摄像机里图像采集矩阵中光电感受单元的尺寸和排列所决定,而灰度图像的幅度分辨率主要由对电信号强度进行量化所使用的级数所决定。如图2.2.10所示,辐射到图像采集矩阵中光电感受单元的信号在空间上被采样,而在强度上被量化。
图2.2.10 空间分辨率和幅度分辨率
采样过程可看作将图像平面划分成规则的网格,每个网格的位置由一对笛卡儿坐标(x,y)所决定,其中x和y均为整数。令f(·)为给网格(x,y)赋予灰度值(f 是F中的整数)的函数,那么f(x,y)就是一幅数字图像,而这个赋值过程就是量化过程。
如果一幅图像的尺寸为M×N,表明在成像时采了MN个样本,或者说图像包含MN个像素。如果对每个像素都用G个灰度值中的一个来赋值,表明在成像时量化成了G个灰度级。一般将这些量均取为2的整数次幂,如下(m,n,k均为正整数):
现在常用的CCD已可获得512像素×512像素到4096像素×4096像素的图像。利用图像处理和分析的手段,还可以通过对图像的拼接用较小分辨率的CCD获得较大视场的图像。
存储一幅图像所需的数据量由图像的空间分辨率和幅度分辨率共同决定。根据式(2.2.32)~式(2.2.34),存储一幅图像所需的位数b(单位是比特)为
如果N = M(以下一般都设N = M),则有
例2.2.6 图像分辨率与存储和处理
存储一幅图像所需的比特数通常很大。假设有一幅 512×512,256 个灰度级的图像,它需要用2 097 152比特来存储。1个字节是8比特,为表示256个灰度级需用1个字节(即用1个字节表示1个像素的灰度),这样前面的图像需要262 144个字节来存储。如果一幅彩色图像的空间分辨率为1024×1024,因为每个彩色分量需要256个幅度级,整个图像需要3.15兆字节来存储,这相当于存储一本750页的书。视频是由连续的帧图像所组成的(PAL制为每秒25帧)。假设彩色视频的每帧图像为512×512,则1 s的数据量为512×512×8×3×25比特或19.66兆字节。
为实时处理每帧图像为1024×1024的彩色视频,需要每秒处理1024×1024×8×3×25比特的数据,对应的处理速度要达到每秒约78.64兆字节。如果假设对一个像素的处理需要10个浮点运算(floating-point operations),那对一秒钟视频的处理就需要近8个亿的浮点运算。并行运算策略通过利用多个处理器同时工作来加快处理速度。最乐观的估计认为并行运算的时间可减少为串行运算的lnJ/J,其中J为并行处理器的个数。按照这种估计,如果使用一百万个并行处理器来处理一秒钟的视频,每个处理器还需要具有每秒78万多次运算的能力。
回到式(2.2.35)或式(2.2.36),对图像存储和处理的需求将随M,N和k的增加而迅速增加。但另一方面,M,N,G越大,图像对连续场景的近似表达就越好。所以,在实际应用中,需要选择M,N,G以便既获取足够多的信息,又尽量减少对图像存储和处理的需求。
实际中选择图像空间分辨率的一个重要因素是看需要观察到图像中哪个尺度的细节。这个数值常与图像内容密切相关,并不是固定的。另一方面,对幅度分辨率的选择主要基于两个因素。一个是人类视觉系统的分辨率,即应该让人从图像中看得到连续的亮度变化,而不要看出(间断的)量化级数。另一个是与应用有关的,即要满足区分场景中各个目标与背景的要求。
在很多情况下,采集的图像需要显示出来,所以采集图像的空间分辨率需要与显式格式的空间分辨率相适应。
例2.2.7 一些显示格式的空间分辨率
一些常见显示格式的空间分辨率如下:源输入格式SIF(source input format)的分辨率为352×240,这也是NTSC制SIF(standard interface format)格式的分辨率,PAL制SIF格式的分辨率为352×288,这也是CIF(common intermediate format)的分辨率,QCIF(quarter common intermediate format) 的分辨率为176×144,VGA的分辨率为640×480,CCIR/ITU-R 601的分辨率为720×480 (NTSC)或720×576(PAL),而HDTV的分辨率可达1440×1152甚至1920×1152。