4.1 视频基础_3D计算机视觉：原理、算法及应用-QQ阅读男生武侠网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

4.1 视频基础

要讨论视频处理，首先要讨论其表达、模型及显示和格式等。

4.1.1 视频表达和模型

视频可看作对（静止）图像沿时间轴的扩展。视频是由在有规律的间隔下拍摄得到的图像组成的序列，所以视频相对于图像在时间上有了扩展。在讨论视频时，一般均认为视频是彩色的，所以还要考虑从灰度到彩色的扩展。由于人类视觉对亮度分量和彩色分量的敏感度不同，在采集和表达视频时也常使用不同的分辨率。

1.视频表达函数

如果用函数f（x，y）表示图像，则考虑到视频在时间上的扩展，可用函数f（x，y，t）表示视频，它描述了在给定时间t投影到像平面XY上的3D场景的某种性质（如辐射强度）。换句话说，视频表示在空间和时间上都有变化的某种物理性质，或者说表示在时间t投影到像平面（x，y）上的时空中的某种物理性质。进一步，如果用函数f（x，y）表示彩色图像，则考虑到从灰度到彩色的扩展，可用函数f（x，y，t）表示视频，它描述了在特定时间和空间下的视频的颜色性质。实际使用的视频总具有一个有限的时间和空间范围，性质值也是有限的。空间范围取决于摄像机的观测区域，时间范围取决于拍摄时间，而颜色性质取决于场景或物体的特性。

在理想情况下，由于各种彩色模型都是3D的，所以彩色视频都应该用3个函数（它们组成一个矢量函数）表示，每个函数描述一个彩色分量。这种格式的视频称为分量视频，只在专业的视频设备中使用，这是因为分量视频的质量较高，但其数据量也比较大。实际中常使用各种复合视频格式，其中的3个彩色信号被复用成一个单独的信号。在构造复合视频时要考虑这样一个事实：色度信号具有比亮度分量小得多的带宽。通过将每个色度分量调制到一个位于亮度分量高端的频率上，并把调制后的色度分量加到原始亮度信号中，就可产生一个包含亮度和色度信息的复合视频。复合视频格式数据量小但质量较差。为平衡数据量和质量，可采用S-video格式，其中包括一个亮度分量和一个由两个原始色度信号复合成的色度分量。复合信号的带宽比两个分量信号带宽的总和要小，因此能被更有效地传输或存储。不过，由于色度和亮度分量会发生串扰，所以有可能出现伪影。

2.视频彩色模型

视频中常用的一种彩色模型是YC_BC_R彩色模型，其中，Y代表亮度分量；C_B和C_R代表色度分量。亮度分量可借助彩色的RGB分量来获得：

其中，r、g、b为比例系数。色度分量C_B表示蓝色分量与亮度值的差，而色度分量C_R表示红色分量与亮度值的差（所以C_B和C_R也称为色差分量）：

另外，还可以定义色度分量C_G=G-Y，不过C_G可由C_B和C_R得到，所以不单独使用。由Y、C_B、C_R到R、G、B的反变换可表示为

在实际应用的YC_BC_R彩色坐标系中，Y的取值范围为[16，235]，C_B和C_R的取值范围均为[16，240]。C_B的最大值对应蓝色（C_B=240或R=G=0，B=255），最小值对应黄色（C_B=16或R=G=255，B=0）；C_R的最大值对应红色（C_R=240或R=255，G=B=0），最小值对应蓝绿色（C_B=16或R=0，G=B=255）。

3.视频空间采样率

彩色视频的空间采样率指的是亮度分量Y的采样率，色度分量C_B和C_R的采样率通常只有亮度分量采样率的二分之一。这样做的好处是可使每行的像素数减半（采样率减半），但每帧的行数不变。这种格式称为4:2:2，即每4个Y采样点对应2个C_B采样点和2个C_R采样点。比这种格式数据量更低的是4:1:1格式，即每4个Y采样点对应1个C_B采样点和1个C_R采样点，不过在这种格式中水平方向和垂直方向的分辨率不对称。另一种数据量与4:1:1格式相同的格式是4:2:0格式，仍然是每4个Y采样点对应1个C_B采样点和1个C_R采样点，但对C_B和C_R均在水平方向和垂直方向取二分之一的采样率。最后，对于需要高分辨率的应用，还定义了4:4:4格式，即色度分量C_B和C_R的采样率与亮度分量Y的采样率相同。上述4种格式中亮度和色度采样点的对应关系如图4-1所示。

图4-1 4种采样格式中亮度和色度采样点的对应关系（两个相邻行属于两个不同的场）

4.1.2 视频显示和格式

视频可以不同的形式和格式显示。

1.视频显示

视频显示器的宽高比主要有4:3和16:9两种。另外，在显示时有两种光栅扫描方式可选，分别为逐行扫描和隔行扫描。逐行扫描以帧为单位，在显示时从左上角逐行扫描到右下角；隔行扫描以场为单位（一帧分为两场：顶场和底场，顶场包含所有奇数行，底场包含所有偶数行），垂直分辨率是帧分辨率的一半，在显示时顶场和底场交替，借助人类视觉系统的视觉暂留特性使人感知到一幅完整图像。逐行扫描的清晰度高，但数据量大；隔行扫描数据量减少一半，但有些模糊。各种标准电视制式，如NTSC、PAL、SECAM，以及许多高清电视系统都采用隔行扫描。

视频在显示时还需要有一定的帧率，根据人眼的视觉暂留特性，帧率需要不低于25帧/秒，否则会出现闪烁和不连续的情况。

2.视频码率

视频的数据量由视频的时间分辨率、空间分辨率和幅度分辨率共同决定。设视频的帧率为L（时间采样间隔为1/L），空间分辨率为M×N，幅度分辨率为G（G=2^k，对于黑白视频，k=8；对于彩色视频，k=24），则存储1s的视频所需的位数b（也称为视频码率，单位是bps）为

视频的数据量也可由行数f_y、每行样本数f_x、帧频f_t定义。这样，水平采样间隔Δ_x=像素宽/f_x，垂直采样间隔Δ_y=像素高/f_y，时间采样间隔Δ_t=1/f_t。如果用k表示视频中一个像素值的比特数（它对于单色视频为8而对于彩色视频为24），则视频码率也可表示成

3.视频格式

由于格式发展的原因和应用领域的不同，实际使用的视频有许多不同的格式。一些常用的视频格式如表4-1所示，在帧率一列中，P表示逐行，I表示隔行（普通电视制式见4.1.3节）。

表4-1 一些常用的视频格式

❑ 例4-1 BT.601标准格式

国际电信联盟的无线电部（ITU-R）制定的BT.601标准（原称为CCIR601）给出了宽高比为4:3和16:9的两种视频格式。在4:3格式中，采样频率定为13.5MHz。对应NTSC制式的称为525/60系统，对应PAL/SECAM制式的称为625/50系统。525/60系统中有525行，每行的像素数为858。625/50系统中有625行，每行的像素数为864。在实际应用中，考虑到需要一些用于消隐的行，525/60系统中的有效行数为480，625/50系统中的有效行数为576，两种系统的每行有效像素数均为720，其余为落在无效区域内的回扫点，分别如图4-2（a）和图4-2（b）所示。

图4-2 BT.601标准中的4:3格式

4.1.3 彩色电视制式

彩色电视可看作一类特殊的视频。常用的彩色电视制式包括NTSC（由美国开发，应用于美国和日本等）、PAL（由德国开发，应用于德国和中国等）、SECAM（由法国开发，应用于法国和俄罗斯等）。

彩色电视系统采用的颜色模型也基于R、G、B的不同组合，同时借助了面向视觉感知的彩色模型的相关概念。

在PAL制和SECAM制系统中使用的是YUV模型，其中Y代表亮度分量，U和V分别正比于色差（B-Y）和（R-Y），称为色度分量（或色差分量）。Y、U、V可由PAL制系统中（经过伽马校正的）归一化的R′、G′、B′经过如下计算得到（R′=G′=B′=1对应基准白色）：

由Y、U、V得到R′、G′、B′的反变换为

在NTSC制系统中使用的是YIQ模型，其中Y仍代表亮度分量，I和Q分别是U和V旋转33°后的结果。经旋转后，I对应橙色和青色间的彩色，而Q对应绿色和紫色间的彩色。因为人眼对绿色和紫色间的彩色变化不如对橙色和青色间的彩色变化敏感，所以在量化时，Q分量所需的比特数可比I分量的少，而在传输时Q分量所需的带宽可比I分量的窄。Y、I、Q可由NTSC制系统中（经过伽马校正的）归一化的R′、G′、B′经过如下计算得到（R′=G′=B′=1对应基准白色）：

由Y、I、Q得到R′、G′、B′的反变换为

需要指出的是，PAL制系统中的基准白色与NTSC制系统中的基准白色略有不同。借助NTSC制系统中的R′、G′、B′，还可以得到

由于人眼对色度信号的分辨能力较低，所以在普通电视制式中色度信号的空间采样率均比亮度信号的空间采样率低，这样可以减少视频数据量而又不会太影响视觉效果。普通电视制式的空间采样率如表4-2所示。

表4-2 普通电视制式的空间采样率