第1章 音频基础
1.1 声学基础
声学是研究媒质中机械波(即声波)的科学,研究范围包括声波的产生、接收、转换和声波的各种效应。声学研究领域非常广泛,最简单的声学就是声音的产生和传播,这也是研究音频的基础。
1.1.1 声音的形成与乐音
声音是声源振动引起,通过声波传播到听觉器官所产生的感受。所以说,声音是由声源振动、声波传播和听觉感受这三个环节所形成的。
声波是机械振动或气流扰动引起周围弹性介质发生波动的现象。产生声波的物体称为声源。传播声波的物体称为介质。声波所波及的空间范围称为声场。
响度、音调和音色是决定乐音特征的三个因素。
物理学中把人耳能感觉到的声音的强弱称为响度。声音的响度大小一般与声源振动的幅度有关。在频率相同的条件下,振动幅度越大,响度越大。一般,我们用分贝(dB)来表示声音的强弱,发生体振动的频率。
物理学中把声音的高低称为音调。声音的音调高低一般与发声体振动快慢有关,物体振动频率越大,音调就越高。
音色又叫音品,它反映了声音的品质和特色。不同物体发出的声音的音色是不同的,因此我们才能分辨不同人讲话的声音、不同乐器演奏的声音等。
有许多声音是正常人的耳朵听不到的,因为声波的频率范围很宽,但正常人的耳朵只能听到20Hz到20,000Hz之间的声音。通常把高于20,000Hz的声音称为超声,低于20Hz的声音称为次声。
1.1.2 声音的特性参数
1.频率
频率与声音的对应关系是频率越低,相应的音调就越低,声音就越低沉;频率越高,相应的音调就越高,声音就越尖锐。
关于更多有关乐器的频率特性的内容请参考本书1.4节。
2.声压与声压级
声压就是大气压受到扰动后产生的变化,即为大气压强的余压,它相当于在大气压强上的叠加一个扰动引起的压强变化。由于声压的测量比较容易实现,通过声压的测量也可以间接求得质点速度等其它物理量,所以声学中常用这个物理量来描述声波。
声压的国际单位是Pa(帕)。声压与大气压相比是极其微弱的,有时也用μbar(微巴)作单位,我们正常人能听到的最弱声音约为2×10-5Pa(1 000Hz处)。
声压级指的是有效声压和基准声压比值的常用对数的20倍,单位为dB。
参考资料
3.采样率和采样精度
我们通常会在播放mp3等音乐文件时,看到诸如“24 bit,96 kHz”的字眼。这其实就是采样率与采样精度的表示方法。把这两个数值放在一起是因为它们都可以用于描述声音质量。“24 bit,96 kHz”的意思就是采样精度为24 bit,而采样频率为96 000Hz。
采样精度(也称为采样分辨率或采样位深)决定了记录声音的动态范围,它以位(bit)为单位,比如8位、16位。8位可以把声波分成256级(2的8次方)的信号,16位可以把同样的波分成65,536级(2的16次方)的信号。采样精度越高,声音的保真度越高。
采样率(也称为采样速度或者采样频率)定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样频率的倒数是采样周期(也叫做采样时间),它是采样之间的时间间隔。采样频率越高,声音的失真度越小。
在数字音频领域,常用的采样率如下。
(1)8,000Hz—电话所用的采样率,对于人的说话已经足够。
(2)22,050Hz—无线电广播所用的采样率。
(3)32,000Hz—miniDV、数码视频、camcorder、DAT(LP mode)所用的采样率。
(4)44,100Hz—音频CD所用的采样率,也常用于MPEG-1音频(VCD、SVCD、MP3)。
(5)47,250Hz—Nippon Columbia(Denon)开发的世界上第一个商用PCM录音机所用的采样率。
(6)48,000Hz—miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音采样率。
(7)50,000Hz—20世纪70年代后期出现的 3M 和 Soundstream 开发的第一款商用数字录音机所用的采样率。
(8)50,400Hz—三菱X-80数字录音机所用的采样率。
(9)96,000 或192,000Hz—DVD-Audio、一些 LPCM DVD 音轨、BD-ROM(蓝光盘)音轨和HD-DVD(高清晰度DVD)音轨所用的采样率。
(10)2,8224 MHz—SACD、索尼和飞利浦联合开发的称为Direct Stream Digital的1位 sigma-delta modulation 过程所用的采样率。
1.1.3 信号的采样和量化过程(基于Matlab7.X)
通过对模拟信号转变到数字信号的过程进行分析,我们可以简单了解信号处理中的Sample(采样)和Quantization(量化)。首先将信号输入,然后要检测其最高频率,再根据采样定理对其进行采样。这个步骤也就是将连续信号离散化,换句话说,数字化已经开始。为了方便分析,我们以一个正弦信号作为例子。
首先定义一个function来处理这些函数参量,包括信号振幅A、信号频率F、采样频率Fs、起始时间T_start、结束时间T_stop、初相位S_phase。
function y=mysin(A, F, Fs, T_start, T_stop, S_phase)
%因为要进行离散,所以需要将时间转化成相对应的点
N_start=round(T_start*Fs); N_stop=round(T_stop*Fs);
%设置采样点,步长为一个点
N=N_start:1:N_stop;
%输出结果
y=sin(2*pi*F*N/Fs+S_phase);
将它独立保存为一个.m文件后,一个可以采样信号的函数就定义好了,以后可以在其他任何程序中调用这个自定义函数。
%输入所需要的参数 A=input(' Enter a value of Amplitude A:' ); F=input(' Enter a value of original frequency F:' ); Fs=input(' Enter a value of sample frequency Fs:' ); T_start=input(' Enter a value of start time Tstart:' ); T_stop=input(' Enter a value of stop time Tstop:' ); S_phase=input(' Enter a value of start Phase:' ); %方便起见,将参数定义为如下数值:A=1, F=10Hz, Fs=1KHz, T_start=0, T_stop=0.1,S_Phase=0。
%画图 plot(y, ' -r' );
结果如图1-1-1所示。
图1-1-1
采样定理指出,只有在信号是带限的且采样频率高于信号带宽的两倍的条件下,可以无损地进行采样,进而能够以此定理将原信号以任意精度重建出来。此采样频率远远高于原始信号最高频率的2倍,所以采样后的信号基本保持了原样。
如果我们用stem函数来看,就可以清楚地看到每次采样的结果
stem(y);
结果如图1-1-2所示。
图1-1-2
在将信号采样完毕后,需要将它量化(Quantization)。在信号处理领域,量化指将信号的连续取值(或者大量可能的离散取值)近似为有限多个(或较少的)离散值的过程。量化主要应用于从连续信号到数字信号的转换中。连续信号经过采样成为离散信号,离散信号经过量化即成为数字信号。例如,CD音频信号就是按照44100Hz的频率采样,按16bit量化为有着65536(216)个可能取值的数字信号。
%首先定义一个函数,函数参量包括输入信号IN和量化比特N function OUT_Q=myquantize(IN, N); %计算出特定比特的量化数值 A_N=[-1:2/(2^N-1):1]; plot(IN); hold on %计算信号长度和量化范围长度 Len_A=length(A_N); Len_y=length(IN); %量化 for i=1:Len_y for j=1:Len_A %将每一个数值变成长度与量化相同的矩阵,系数为每一个数值 Temp=IN(1, i)*ones(1, Len_A); %计算每个采样点到量化点的距离 Q_O(1, j)=Temp(1, j)-A_N(1, j); %将其转化为量化数值 [Min_value, Corre_A]=min(abs(Q_O)); OUT_Q(1, i)=A_N(1, Corre_A); end end %比较量化前后区别
plot(OUT_Q, ' r' ); %保存这个已经写好的函数后,以后在其他程序中调用它 IN=mysin(1,10,10000,0,0.1,0); %定义量化比特 N=input(' Enter a value of quantization bits N:' ); %取得结果 OUT_Q=myquantize(IN, N);
将N定义为3,可以明显看到量化后的信号呈阶梯状,如图1-1-3所示。
图1-1-3
蓝色的线为量化之前的信号,红色的线为量化后的离散信号,此时数字化完成。
1.1.4 Pro Tools的动态范围
我们已经知道,对于每个采样系统均会分配一定存储位(采样精度)。每增加一个bit,表示声波振幅的状态数就翻一番,并且增加6dB的动态范围。一个2bit的数码音频系统表达4种状态,即12dB的动态范围。依次类推,如果继续增加bit数,则采样精度就会提高。可以计算出16bit 能够表达65,536种状态,对应96dB 的动态范围;而20bit 可以表达1,048,576种状态,对应120dB的动态范围;24bit可以表达多达16,777,216种状态,对应144 dB的动态范围。采样精度越高,声波的还原就越细腻。
Pro Tools HD具有高达48bit的采样精度,也就意味着可以提供288dB的动态范围,如图1-1-4所示。
图1-1-4 Pro Tools HD动态范围