3.2 通信系统的信源编码技术
在现代通信系统中需要将各类传感器信源在时间上、幅度上连续变化的模拟电信号(如传感器信号、语音信号和图像信号)变换成时间和幅度上都离散的数字信号,然后再根据信源类型的不同对其进行编码处理。为了提高信道利用率,通常需要压缩编码,以降低信源经信源编码后的位率。
3.2.1 数据编码技术
各类传感器将多种非电量信号(如温度、湿度、压力、速度,以及各类物理与化学量等)变成模拟电信号后,再利用模数(A/D)变换装置将时间上、幅度上连续变化的模拟电信号变换成时间和幅度上都离散的数字信号,就形成了各类传感器的“数据”,如雷达信号就是典型的传感器数据。而传统的通信网中所说的“数据”是指用离散的数据信号代表的文字、符号和数码等。需要进行远程传输的“数据”通过数据终端设备(DTE)接入数据通信系统。
数据通信系统由数据终端设备(DTE)、数据电路终接设备(DCE)和传输信道组成,如图3-2所示。数据终端设备也可由计算机系统构成,它完成数据的输入和输出。当有多个数据输入源时,需要有对这些输入集中的功能,具有这种功能的集中器和在接收端对应的分配器通常包含在DTE中。当传输信道是模拟信道时,DCT的功能是在发送端将DTE送来的数据信号变换为模拟信号,在接收端完成反变换,它就是调制解调器(MODEM);当信道为数字信道时,DCE的功能是进行码型变换以使信号适合于在信道中传输,并进行电平变换、信道特性均衡、同步时钟信号形成、差错控制、控制接续的建立、保持和拆断及维修测试等。
图3-2 数据通信系统的组成
由于数据通信是在终端设备和计算机之间进行的通信,需要遵循一定的规则,以便对传输过程进行控制,才能保证数据信息的正确传送,这就是所说的通信协议。
原始传感器信源的数据量可能是非常巨大的。例如,扫描仪扫描一张典型的文稿纸面上有将近4百万个点(像素),并假定每个点为黑、白二值像素。如果使用一台9.6kbps的调制解调器来传送,需要的时间超过六分钟。那么是否可以在保持传输帧原意的基础上,减少传输的位数呢?这就是数据压缩编码研究的问题。
表3-1给出了一种减少传送国家标准GB/T 1988—1998(信息技术信息交换用七位编码字符集)代码位数的编码方式,将原来用一个字节代码存储或传输的全部由英文大写字母组成的数据文件,改用如表3-1所示的编码方式,由于每个字母只用5位表示,所以同一文件的数据量(位数)减少了37%。GB/T 1988—1998标准与美国ASCII代码的标准ANSI INCITS4—1986相当。
表3-1 大写字母可能的编码
另外,LZ编码是用来查找文本中经常重复出现的字符串的技术,该字符串只存储一次,并使用一个代码来表示。当该字符串再次出现时,只用其代码来代替它。这种只存储信息的一份副本,并使用特定的代码加以引用的技术思路,还用于UNIX的压缩命令中,并成为调制解调器V.426bis的压缩标准。此外,在3.2.3节介绍的游程长度编码和霍夫曼编码也是常用的数据压缩编码算法。
3.2.2 语音编码技术
拾音器或话筒是语音通信系统中的传感器,它的输出是模拟的语音信号,其特征是在时间和幅度的取值上都是连续的。为了将模拟语音信号变换为数字语音信号,首先应对模拟语音信号进行取样,在时间上将信号离散化;然后对样值进行量化,使其取值也离散化;最后对离散化的信号进行编码。
语音信号从模拟形式转化为数字形式,称为语音信源编码,其目标是在保证编码序列在解码后恢复的语音质量“尽可能”逼真地还原为原语音信号的条件下,使编码器输出的语音数码率更小。为此,信源编码可能包括了相应的压缩码率的算法,这就是通常所称的“语音压缩编码”[21]。
语音压缩编码的方法大致可分为三类:波形编码、参数编码和混合编码。
1.波形编码技术
波形编码技术是对语音信号离散化后的波形样值进行编码,其目标是保证在译码后恢复的语音信号波形与编码前的信源的原语音信号波形尽可能一致。在信号无干扰的情况下,两者波形的差别由量化时的量化噪声引起。编码的任务是在保证信号功率与量化噪声功率之比满足要求的条件下,降低语音编码信号的速率。
典型的波形编码有PCM(脉冲编码调制)、ADPCM(自适应差分脉冲编码调制)、DM(增量调制)及变换域编码,如ATC(自适应变换编码)、SBC(子带编码)等。PCM的标准为ITU G.711,编码速率64kbps,解码后的语音信号有很高的质量,已在全球的数字电话网中使用。ADPCM常用的速率为32kbps,相关编码标准为ITU G.726(该标准还包含了40kbps、24kbps或16kbps速率的子带ADPCM编码),解码后语音质量也较高,已用于海底电缆和卫星链路的传输。
2.参数编码技术
参数编码/解码系统通常称为声码器(Vocoder),参数编码技术首先从离散语音信号中提取出反映语音的特征值,再对特征值进行量化编码。在接收端,解码器首先提取这些特征参数,然后用它们去激励一定的发音模型,从而恢复发端的语音信号。一般,参数编码可以实现以比波形编码低得多的码速率来传输语音信号,但是,参数编码的语音质量较波形编码低。最常用的参数编码器是LPC声码器(线性预测编码声码器)。
3.混合编码技术
在参数编码技术的基础上引入了一些波形编码的特性,在编码速率增加不多的条件下,可较大幅度地提高语音质量,这就是混合编码技术,它结合了波形编码语音质量高和参数编码可实现低码率传输的优点。混合编码的编码算法较多,相应的编码器在移动通信系统中有大量的应用。
典型的混合编码CELP(码激励线性预测编码)符合美国国防部FS-1016标准,编码速率为4.6kbps(而标准FS-1015的编码速率为2.4kbps)。同时它派生出了多种编码算法:LD-CELP(低时延CELP)算法标准为ITU-T G.728,只有2ms的编码延时,语音主观评价MOS分接近4分,编码速率为16kbps;CS-A CELP(共轭结构-代数码CELP)算法的编码速率为8kbps,相应的编码标准为ITU-T G.729,在多媒体通信和IP电话领域有较广泛应用;ACELP(代数码CELP)算法的编码速率是5.3kbps,对应的编码标准为ITU-T G.723.1;VSELP(矢量和激励线性预测)编码算法,符合北美电信工业协会(TIA)标准IS-54,编码速率为7.95kbps,用于北美移动蜂窝网;QCELP(Qualcomm CELP)为变速率编码算法,速率可为8.5kbps、4.0kbps、2.0kbps和0.8kbps。北美IS-54的VSELP编码算法也符合日本无线电通信系统研究发展中心提出的个人数字蜂窝(PDC)全速率(6.7kbps)标准。
另外一种使用比较广泛的混合编码是MBE(多带激励线性预测编码),该编码是基于频域的新型语音发音模型,得到应用的有两种改进型:IMBE(改进的MBE),编码速率为4.15kbps,用于国际海事卫星组织系统;AMBE-1000(先进的MBE-1000),编码速率为2.4~9.6kbps,有较高的语音质量。当编码的速率为2.4kbps时,语音质量已达到地面蜂窝网GSM的13.3kbps声码器质量。这类声码器曾在低轨卫星星座系统“铱”中采用。
3.2.3 图像编码技术
一般将扫描仪和照相机等传感器输出图像称为静态图像,主要有扫描仪等传感器生成的数字化图像(如图片、文档)和计算机生成的图像(也称图形图像)两种基本类型。图形图像以某种编程语言编写的程序的形式表示,它与以像素矩阵方法表示的数字化图像相比,传输时所需的带宽小很多。然而,一旦图形图像数字化,就只能用二维像素矩阵的形式表示。例如,计算机显示屏显示的是数字化图像,它是由像素组成的二维阵列,常用的VGA显示方式在水平和垂直方向分别有640和480个像素,每个像素8位,即有256种不同的颜色。下面将只讨论数字化图像的压缩和通信问题。
JPEG(联合图像专家小组)制定的图像压缩标准既可用于静态图像的压缩编码,又可用于视频图像序列的帧内图像压缩编码。JPEG图像压缩标准分为无失真图像压缩编码(也称统计编码)和有失真图像压缩编码两类。
1.无失真图像压缩编码技术
要求无失真压缩编码技术在减少传输信息总量的同时,尽量不损失原始图像的信息。也就是说,解压缩后图像能无失真地恢复,无失真压缩是可逆的。传真机扫描器数字化的黑、白(二值)图像的压缩就是无失真压缩的例子。图像扫描行有的由一长串白色像素组成,有的由白色像素串和黑色像素串混合组成,这类图像有很大的空间冗余。ITU-T制定的标准Group3,通过调制解调器在模拟的PSTN(公用电话交换网)上传输,文档页的压缩比超过10:1,使传送一页Group3的时间小于1分钟。而用于ISDN(综合业务数字网)的传输标准Group 4,由于传输速率(64kbps)的增加,使一页文档的传输时间减少到几秒钟。作为静态图像通信,传真也可用于相片传真和彩色传真。
在信源信息序列中,经常会出现长的相同字符串。游程长度编码不是将字符串中的码字和位单独进行编码传输,而是将字符串编为码字组进行传输。传输的码字组既标明了这些特定的字符或位,又标明了子串中字符或位的数目(长度)。
霍夫曼编码首先对信源信息中不同字符出现的概率进行分析,并以此编出码表。该码表中,出现概率大的字符对应较短的码字,而出现概率小的字符对应较长的码字。传输码表的码字的信息量将比传输原来信源信息中的字符的信息量小,从而实现了压缩的目的。
2.有失真图像压缩编码
有失真图像压缩编码利用图像像素之间存在的相关性对这些像素进行预测,如果只传送像素灰度的实际值与预测值的误差信号,将比传输原始图像信号所用的数码率要低得多,这种编码方法称为预测差值编码。
离散余弦变换(DCT)是最常用的变换编码方法。DCT可以有效地去除原始信号(像素间)的相关性,同时这种变换本身不会丢失原始信号的信息。在DCT后,图像信号中的高频分量只影响其质量的某些细节,所以通常可以只传输信号中的低频分量,而丢弃部分高频分量,以获得更大的压缩比。这时,在收端所恢复出的图像将有一些失真,但这种失真应当是可被接受的。
国际标准组织(ISO)的静态图像专家组(JPEG)对静态图像提出了三种JPEG标准的压缩算法。
(1)基本系统:经过DCT对图像像素间的相关性进行压缩,再利用人眼视觉特性对变换系数进行自适应量化,最后用霍夫曼编码进一步压缩。
(2)扩展系统:为适用不同应用的需要而进行的扩充。工作是渐进方式的,即采用多次扫描:第一次扫描只进行粗糙的压缩,先重建一幅低质量的图像,然后进行多次扫描,再进行较精细的压缩,使重建的图像质量不断提高。
(3)无失真系统:预测器对预测差值不进行量化,而是直接进行统计编码,保证原始图像数据无失真地恢复。
对于基本系统和扩展系统,压缩是有失真的,重建图像的质量与压缩比密切相关。JPEG规定的中等复杂度图像有四种,重建图像质量与位/像素的关系如下。
●对图像质量要求不高的应用:0.25~0.5位/像素。
●满足多数应用的较好图像质量:0.5~0.75位/像素。
●满足大多数应用的好的图像质量:0.75~1.5位/像素。
●与原始图像几乎看不出差别的重建图像质量:1.5~2位/像素。
可视图文也是一种常见的图像通信,它支持用户和可视数据中心之间进行交互式双向通信业务。可视数据中心根据用户的要求,从数据库中找出相应的信息,以数据的形式通过通信网络传向用户终端,并在用户屏幕上以字符、图形或图像的形式显示。
3.2.4 视频编码技术
1.视频信号的特点
由摄像机和视频监视器等传感器输出的视频信号不同于前面所说的静态图片信号,其区别主要有如下几方面。
(1)视频信号是由连续的按时间排列的多幅图像信号构成的,有相伴的帧速率。例如,电视信号的帧速率是每秒24帧。也可以说,视频信号是一个数字图像序列。
(2)两者的帧尺寸大小不同:图像信号的尺寸主要有适用于PC监视器的640×480像素和1024×768像素两类。而视频信号的帧尺寸标准较多,可以是176×144像素那么小(这是为可视电话定义的“四分之一通用中间格式QCIF”),也可以是HDTV(高清电视)的1920×1080像素那么大。
(3)视频压缩算法既利用了谱掩蔽效应,又利用了时间掩蔽效应。同时,可以利用对视频序列倾向于以一种模式运动的预测。于是,如果能检测出对象及其在时间上的运动轨迹,那么从一帧到另一帧就可以进行运动补偿。
传输视频信号需要较高的传输速率,即需要占用较宽的带宽。例如,对于可视电话的每幅图像的176×144像素来说,假定每像素亮度用8位的精度来表示,且色度分辨率为亮度的一半,那么每个视频帧的数据量大约为38KB。如果将这个帧以25帧/秒的速度发送,其位率高达7.6Mbps左右。因此,通常的视频信号在传输之前都要经过压缩编码。
大多数的视频信号源于摄像机。每一帧中数字化的像素序列在网络中依次传送,而接收端将所接收到的像素点直接显示在电视屏或PC显示屏上。在某些应用中,视频内容是由计算机程序产生的所谓“计算机动画”,这种由程序表示的动画所需的存储空间和传输带宽比视频图像表示的动画要小得多。
2.不同应用对视频质量的要求
视频信号质量和带宽是选择视频编码算法时需要考虑的两个重要因素,而应用的类型决定了用户对视频质量的要求[23]。例如,对于可视电话,需要能辨识另一端用户的面部特征;用于监视系统时,只需检测出视景中人的大体轮廓;而在远程医疗的应用中,远端用户需要识别微小的细节。
在表3-2中列出了不同图像格式的图像分辨率。由于人眼对颜色细节的敏感性差,每个色度分量的分辨率只有同一维中亮度分量的一半。
表3-2 不同图像格式的图像分辨率
3.当前视频编码标准状况
视频信号压缩编码的算法较多,如基于分割的编码、基于模型的编码、子带编码、基于码本矢量的编码及基于像块的DCT(离散余弦变换)编码等。选择编码算法的依据是算法的效率(压缩比)、恢复视频信号的质量和要求应用场合能提供的资源。在上述各种算法中,基于像块的DCT编码在通常的应用中都是最佳的。
基于像块的视频编码算法中,每个视频帧被分成若干个16×16的矩阵(或像素块),并有帧内编码和帧间编码两种模式。帧内编码将视频帧作为独立的静态图像,采用DCT变换编码和对DCT变换系数的量化,以消除空间冗余,使图像信号得到压缩。由于帧内编码没有任何先前的参考帧,无法抑制视频信号在时间上的冗余。
帧间编码用于消除时间上的冗余,编码过程中首先对视频信号进行动态搜索,以探测当前帧和参考帧之间的相似程度,然后对差分图像进行DCT变换和量化。得到的差值矩阵通过Z扫描后,转换为一维的系数矩阵。Z扫描编码充分利用了量化后较长的0游程(由当前帧与参考帧近似的部分产生),并对0游程和非0值分配变长码,从而消除视频信号的时间冗余,进一步提高了压缩比。
由于基于像块的视频编码算法被广泛采用,并因此而制定了相关的标准,参见表3-3。
表3-3 基于像块的DCT视频编码标准及其应用
国际上视频编解码标准主要两大系列:ITU针对多媒体通信制定的H.26x系列视频编码标准,ISO/IEC JTC1制定的MPEG系列标准。
H.261是ITU-T为在综合业务数字网(ISDN)上开展可视电话和视频会议业务而制定的视频压缩标准,其速率为n×64kbps,n=1,2…30。该标准只有CIF和QCIF两种图像格式。
H.263是专门为在无线和PSTN上传输视频信号而制定的压缩标准,可用于可视电话、视频会议、安全监控、网络交互游戏等。H.263编码器的基本结构与H.261相同,而H.263在H.261基础上增加了若干先进的编码选项。
ISO的活动图像专家组(MPEG)针对视频信号制定了一系列MPEG标准,早期的MPEG-1是专门为在CD-ROM上以1.5Mbps速率存储VHS(家用录像机)录像质量级的节目而制定的标准,图像分辨率为352×288像素。MPEG-2是为记录和传输演播室质量级的视频和音频信号而制定的标准,它有四种图像级别:低、中、高1440和高1920,它们分别用于不同的领域。
(1)MPEG-2低(LOW):最高分辨率为352×288像素,与MPEG-1标准兼容,提供家庭录像机(VHS)质量的视频信号。
(2)MPEG-2中(Main):最高分辨率为720×576像素,可提供演播室质量的视频信号。允许多个CD质量级音频通道。
(3)MPEG-2高1440(High 1440):分辨率为1440×1152像素,可提供高清晰度电视图像。
(4)MPEG-2高1920(High1920):分辨率1920×1152像素,可提供宽银幕高清晰度电视图像。
MPEG-4最初标准的应用范围与H.263大致相同,适用于低码率信道(4.8~64kbps)传输。后来将应用范围推广到各种交互式多媒体业务和网络娱乐等方面。这使用户由被动变为主动,可根据需要来执行开始、停止、暂停等命令,并允许用户选择图像的某个具体对象进行操作。MPEG-4视频编码算法是基于对象的视频编码算法。所谓“基于对象”是指依赖于对视场中任意形状对象检测的编码机制,但它也是一个基于分块的过程。MPEG-4的核心结构与H.263一致,当视场内无对象进行分割时,其性能类似于H.263。
为了适应宽带网络发展和高清视频信息传输,ISO/IEC和ITU联合制定了MPEG-4 AVC(简称AVC)标准ISO/IEC 14496-10/ITU-T建议H.264。
在该领域面向国内的信息产业需求,2002年,当时的信息产业部成立了先进音视频编码(AVS)标准工作组,并于2006年3月推出了AVS视频部分的国家标准GB/T 20090.2—2006(信息技术先进音视频编码第2部分:视频)。该标准是基于我国自主创新技术和国际公开技术所构建的,主要面向高清晰度和高质量数字电视广播、网络电视、数字存储媒体和其他相关应用,具有以下特点:
(1)性能高,编码效率是MPEG-2的2倍以上,与H.264的编码效率处于同一水平;
(2)复杂度低,算法复杂度比H.264明显低,软硬件实现成本都低于H.264;
(3)我国掌握主要知识产权,专利授权模式简单,费用低。