第5章 听觉
物体振动引起空气中传播的声波,作用于人类听觉器官并转换为神经信息,传入脑内听觉中枢,从而产生了听觉。人类口、舌等发音器的振动产生了言语声波,传入听者耳中产生的言语感知觉,是人类交际的主要手段和社会关系赖以形成的基础。物体振动与声波参数间的关系是物理声学的课题;声波参数与人类听觉之间的关系构成了心理声学或心理物理学的课题;听觉器官和听觉中枢怎样对各种声学参数进行编码与加工,则是听觉生理心理学的中心课题。物理声学和心理声学的基本概念是探讨听觉生理心理学问题的基础和前提;而听觉生理心理学研究又会加深对心理声学和物理声学问题的理解。所以本节从物理声学和心理声学参数作为讨论听觉问题的起点。
一、声音刺激的物理参数和心理物理学参数
物体振动使周围的空气分子也随之发生压缩与宽松交替变换式的振动,这种振动以340米/秒的速度沿其振动方向向远处传播开来。声波的物理参数主要有频率、波幅等。频率就是单位时间(秒)内声波振动的次数,其度量单位是赫兹(Hz),即1次/秒的振动。声波的振动幅度称波幅,以其所具有的振动压强为度量单位,即每平方米面积上空气受到的压力变换值,其绝对单位是牛顿/米2(N/m2)。声压越高,声波振幅越高,则传播得越远。人耳鼓膜所能觉察出来的最小声压大约为2×10-5牛顿/米2.由于人耳所能感知声压的范围甚广,为了便于计算,物理声学常采用声压的对数单位——分贝(dB)作为声压水平的基本单位,P为某一声压的绝对值(N/m2)。
声压与绝对阈值相等的声压水平为0分贝。心理声学将人耳感知不同声压水平时产生的主观感觉差异称为响度或音强(loudness),响度的度量单位是方(phon)。
以单一频率规律性振动的声波,称为纯音(pure tone),生活中几乎不存在单独的纯音,大多是含有多种频率振动的复合音。对复合音进行傅里叶分析,可得到许多频率的纯音。那些振动频率成倍数变化的一系列纯音,称为谐振音。一个复合音用傅里叶分析得到不同频率纯音的分布图称为声音的频谱图。人所能听到的频谱大约为20-16000赫兹的各种振动波,对400-1000赫兹的声波最敏感。1000赫兹60方的声波是人耳最适宜的言语听觉声音参数。心理声学将人耳所能分辨的不同频率波,称为音高(pitch)。在1000赫兹最适宜音高的附近,人们可以分辨出赫兹的变化,称为频率鉴别阈限。
物理声学分析声音的频率、振幅或声压以及复合声的频谱;心理声学考虑到这些参数与人类主观听觉间的关系,则提出相应的参数是音高、音强(响度级)和音色(trem-bre)。音色就是某一复合声的频谱,即构成该复合声的主要频率组成成分。听觉生理心理学的核心课题在于阐明人脑感知音高、音强和音色的生理机制,分析内耳与脑听觉中枢如何对声波的心理声学参数进行编码和加工的。为此,必须对内耳和听觉系统的结构与功能特点有所了解。
二、耳与听觉通路
耳由外耳、中耳和内耳构成。外耳包括耳廓与外耳道,具有聚音和声波传导功能。中耳由鼓膜和鼓室构成,鼓室内有锤骨、砧骨和镫骨等3块听骨。3块听骨构成传导和调节声压的杠杆系统,一端由锤骨与鼓膜相接,另一端由镫骨与内耳卵圆窗相连,将声波从外耳传至内耳。中耳鼓室内还有耳咽管把鼓室和咽腔沟通起来,以调节鼓室内压力,保证鼓膜和听骨杠杆作用的适宜压力条件。内耳由前庭、耳蜗和三个半规管组成。耳蜗内主要有听觉感受器——柯蒂氏器,前庭与三个半规管内主要有平衡觉感受器。内耳的听觉感受器和平衡感受器及相关结构统称为迷路,镶嵌在颞骨形成的骨迷路腔内。在强振动的特殊情况下或外耳与中耳的声波传导与放大系统发生障碍时,骨迷路也能将声波直接传给内耳。这种途径称骨传导,一般正常情况下它并不具有重要意义。
耳蜗是由3层平行的管状组织螺旋式盘绕成二圈半的蜗牛状结构。这3层平行管状组织分别称为前庭阶、中间阶(或称耳蜗管)和鼓室阶。在前庭阶和鼓室阶内流动着外淋巴;在中间阶内流动着内淋巴。两种淋巴液的化学组成不同,外淋巴含较高浓度钠离子,类似细胞外液;内淋巴含较高钾离子,类似细胞内液。前庭阶和鼓室阶的外淋巴液在耳蜗顶部经一孔相通。中耳传导的振动声波由镫骨通过卵圆窗传给前庭阶的外淋巴液。中间阶的内淋巴以前庭膜与前庭阶的外淋巴相隔;以基膜与鼓室阶的外淋巴相隔,所以外淋巴液内的振动波分别通过前庭膜和基膜传给内淋巴。基膜上分布着声波振动的感受细胞及其支持细胞。感受细胞又称毛细胞,可分为内、外毛细胞两种。人耳蜗内含有3400个内毛细胞和12000个外毛细胞,毛细胞的基部通过支持细胞固着于基膜上,顶部有许多纤毛,其上覆以盖膜。内淋巴中传导的声波导致盖膜与纤毛间的振动,从而使毛细胞兴奋,产生感受器电位。
听觉通路始于内耳的毛细胞,它与螺旋神经节内双极细胞的外周支神经纤维相联系。将编码后的听觉神经信息传给双极细胞。双极细胞将这些信息沿其中枢支神经纤维——听神经向脑内传递,首先到达延脑的耳蜗神经核,交换神经元后大部纤维沿外侧丘系止于下丘,另一部分纤维从耳蜗核经过延脑的上橄榄核与斜方体,再达于下丘。从下丘向左、右两个内侧膝状体传递信息,最后由内侧膝状体将听觉信息传送到颞叶的初级听皮层(41区)和次级听皮层(21区,22区,42区)。应该指出,在听神经中,95%的纤维来自于与内毛细胞发生突触联的双极细胞;只有5%的听神经纤维来自与外毛细胞发生联系的双极细胞。前一种双极细胞与内毛细胞是一对一的联系;而后一种双极细胞可以同时与几个外毛细胞发生联系。所以,内毛细胞在听觉感受中,具有较重要的作用。
三、听觉信息的神经编码
关于听觉系统对声波的各种参数怎样编码而产生主观听觉的问题,很早就形成了几种理论假说。随着科学的发展,逐渐认识到它们各自的局限性,不断修正旧的理论形成新的理论。
(一)音高的神经编码与听觉理论
1863年,德国生理心理学家黑尔姆霍兹(H。V。Helmholtz)提出了听觉的共振假说(resonance theory)。这种理论把内耳比喻成一架钢琴,柯蒂氏器官内的基底膜、毛细胞像琴弦一样,由于长短不同振动频率不一。外部声波传入内耳后,低频声波易引起较长纤毛的毛细胞和较宽基膜的共振;高频声波引起较短纤毛的毛细胞与较窄基膜的共振。解剖学研究确实发现耳蜗基底膜宽度不同,在耳蜗基部的基底膜较窄,而在耳蜗顶部基底膜变宽。这使共振学说至今还能解释某些听觉现象,例如老年人耳蜗基底部血管硬化供血不足,常造成其对高频音听力的下降,同时低频音的听力却不发生变化。共振理论的严重不足在于机械地在内耳与钢琴间的类比。事实上,内耳中的内、外淋巴和基底膜的振动总是整体性的,无法实现像琴弦那样分离地局部振动。为克服共振假说的不足,许多学者对它作了修正,所谓位置理论(place theory)就是修正了的共振假说。这一假说认为,虽然内耳基底膜不能像钢琴弦那样进行分离的局部振动,但在基底膜整体振动时,不同部位上最大敏感振动频率却存在着微小差异。因此,在不同频率声波的感知中,耳蜗基底膜上的不同位置具有不同的作用。
与共振、位置理论不同,还存在着频率理论(frequency theory)。这一学说认为,不同频率声波引起与之频率相同的神经元单位发放,因而能感知不同音高的声刺激。这一学说遇到的困难是神经元最大单位发放频率不超过千赫兹;而人类听觉却可以感知16千赫兹以下的声音。为了克服这个难点,一些人修正了频率假说,提出了齐射原理(volley principle)。这一原理指出,虽然每个听觉神经元的单位发放频率不能超过千赫兹,但声波作用听觉系统,同时可以激活许多神经元的单位发放,它们各自产生一定频率神经冲动排放,叠加在一起,就会造成与高频声波相同的发放频率。提出者也不得不承认,齐放理论最多只能解释5000赫兹以下的声音感知现象,对5000赫兹以上声音的感知应由位置学说加以补足。
美籍匈牙利学者贝克西(G。V。Bekesy)1969年提出了行波学说(travelling wave),以其大量精细数据和模拟研究获得了诺贝尔奖。贝克西认为声波从外耳经中耳引起卵圆窗的振动,在内耳的传播是以行波方式进行的。他设想耳蜗管的内淋巴、基底膜、毛细胞和盖膜之间发生三维振动,振动的幅度最小为10-10米。因为耳蜗螺旋部的基底膜紧张度较高,耳蜗螺旋顶部的基底膜紧张度较低,行波传播的速度逐渐降低,振幅也逐渐降低,达耳蜗顶部时,行波几乎消失,可见在耳蜗管的不同点上,行波振动的最大频率逐一下降。换言之,不同频率的行波引起不同感受细胞的最大兴奋,在耳蜗内对声音频率进行着细胞分工编码。凯恩(Kiang)应用细胞微电极方法,未能找到对200赫兹以下声波反应的耳蜗细胞。因此,无法用细胞分工编码解释低频声波的感知机制。他进一步发现,在低频范围内耳蜗螺旋顶部的基底膜与声波发生同步化振动。还有人用各种频率声波合成的白噪声刺激,以便引起整个基底膜的同时振动。此时被试仍能报告是否有声刺激出现或消失,说明此时存在耳蜗神经冲动。
综上所述,关于内耳音高编码问题,出现过许多理论,但归结起来不外乎细胞分工编码和频率编码两种方式。可能对低频声刺激以频率编码为主,而高频声刺激以细胞分工编码为主。那么在听觉通路和听觉中枢内对音高是如何编码的呢?在听觉通路上,插入微电极记录不同水平听觉神经元对各种音高声刺激的反应。将实验数据在频率(音高)和音强坐标上记录出反应曲线,结果表明每个神经元的反应曲线均呈V字形,其底下的尖点不相重合。由此说明在听觉通路上,各个神经元有其自己最敏感的反应频率,此频率上给出单位发放频率变化所需的音强最低。据此可以认为,在听觉中枢内对音高的感知是由细胞分工编码机制完成的。在初级听皮层上,可以明确找到与耳蜗螺旋基部和顶部相对应的空间定位关系,颞横回内侧对应于耳蜗基部高音敏感区,颞横回外侧对应于耳蜗顶部低音敏感区。
(二)音强的神经编码
在外周和中枢内对音强编码的机制较为复杂。可分为级量反应式编码、调频式编码和细胞分工编码。在耳蜗管内的内淋巴与前庭阶外淋巴之间,存在着正80毫伏的蜗管内直流电位;而在蜗管中的毛细胞(声波感受细胞)膜内与外淋巴之间,存在着-60--80毫伏的细胞内负直流电位。所以,在毛细胞膜内与细胞膜外(内淋巴)存在着-140--160毫伏的静息膜电位。当毛细胞受到刺激时,在其与盖膜毗邻的纤毛附近,大量钾离子通道门开放,内淋巴的高浓度钾离子进入毛细胞内,导致毛细胞去极化,产生了感受器电位。耳蜗内的感受器电位是一种级量反应,随声波刺激强度与波形的变化而变化,没有潜伏期和不应期,也没有适应现象。感受器电位触发毛细胞释放兴奋性氨基酸类递质(谷氨酸或天冬氨酸),这些递质达双极细胞外周纤维的突触后膜上与受体结合,引起兴奋性突触后电位。这些兴奋性突触后电位发生总和而导致双极细胞的单位发放。从上述过程可以看到,在双极细胞单位发放以前的各个环节上,均是级量反应式的编码过程。毛细胞膜电位去极化和感受器电位是级量反应,毛细胞释放兴奋性神经递质,引起兴奋性突触后电位是级量反应,这些过程均制约于声波刺激的强度。但是,在电子显微镜下的超显微结构研究发现,耳蜗毛细胞不但与双极细胞形成传递听觉信息的突触,还接受从橄榄核发出的传出纤维。这些传出纤维对毛细胞的兴奋性产生抑制性调节。所以,毛细胞的级量反应有时并不仅仅决定于声波的强度,还制约于传出性抑制机制。这种对毛细胞的传出抑制效应是通过神经末梢释放胆碱类神经递质而实现的。
在耳蜗螺旋神经节内的双极细胞至皮层下的各级听觉中枢内,均实现着调频式的编码过程,把音强的信息转换为神经元单位发放的频率变化。这种调频编码过程与其他感觉通路不同,听觉中枢神经元的单位发放频率不仅仅决定于声音刺激的强度,还制约于它的频率(音高)。各级听觉中枢的神经元只能在一定的刺激强度和频率范围内,才能进行对刺激强度的调频式编码,将这种能引起听觉某个中枢神经元单位发放频率改变的声刺激范围称为反应区。在听觉通路上从低级中枢到高级中枢,神经元的反应区基本由大变小,说明高级中枢神经元之间的细胞分工编码逐渐发挥更大作用。在大脑皮质中,细胞分工编码已完全取代了单位发放的调频式的信息编码。
谭特里(A。R。Tunturi)发现在听皮质中对音强的信息编码与对音高的编码一样,都是细胞分工的空间编码。在狗听皮层的研究中,他发现在薛尔维氏回(相当人类颞横回)皮层上,对不同声音强度发生最大反应的细胞依次分布,其排列方向与对不同声音频率发生敏感反应的细胞排列方向互相垂直。听皮层由外侧向内侧的细胞感受声音的最适频率逐渐增高;对不同音强发生最大反应的听皮层细胞,在听皮层的前后方向上依次排列。
四、对音色的神经编码
对复合声刺激,特别是言语声音的刺激,听觉系统靠两种机制进行着细胞分工编码。频率自动分析的机制,使听觉系统不断对复杂声音的频谱进行傅里叶变换,由大量神经元分别对不同频率的谐波进行音高和音强的编码。另一种细胞分工编码的机制类似于视皮层的复杂细胞和超复杂细胞一样,在听皮层内也存在着特征提取的各种特殊神经元及相应的功能柱,分别对音色进行模式识别过程。应该指出,对音色的神经编码过程,至今还缺乏直接的系统性实验证据。
五、声源空间定位的神经编码
除了心理声学的上述3个基本参数外,人与动物听觉系统对声源空间定位的功能也具有重要的生物学意义,关于它引起朝向反射的神经机制,留在第4章中讨论,这里仅就声源空间定位的神经编码机制进行讨论。
声源空间定位的神经编码有两种基本方式:锁相—时差编码和强度差编码。这两种编码都依靠两耳听觉差为基础,前者是由声波达两耳之间的时差所形成的空间定位;后者是由声波强度在两耳之间差异所形成的声源空间定位效应。当声源距离远时,它对于两耳之间的距离差可能较大,声波达两耳的时间差较易为听觉系统所鉴别。如果声源距离较近,其对两耳之间的距离差很小,则由于两耳听觉神经元发放的锁相机制,仍可感知其3×10-5秒的时差。什么是听觉神经元单位发放的锁相(phase locking)机制呢?听觉神经元在声波作用时,增加单位发放频率的现象,并不是发生在整个声波周期时间内,仅仅出现在声波周期的某一时相上。头两侧的听觉神经元中,有些对同相位声波产生同步性单位发放。神经元仅在声波某一相位时改变单位发放频率,两侧神经元对同相声波产生同步性单位发放的机制,就称为听觉神经元单位发放的锁相机制。如果声源距离很近,声波到达两耳的时差甚微,仅产生几分之一周期的位相差,此时由于两侧神经元单位发放的锁相机制,只能一侧神经元增加单位发放频率,从而造成两侧神经元单位发放的不对称性,产生了时差效应,对声源给出准确的空间定位。靠神经元单位发放锁相机制对距离较近的低频声源进行精确空间定位的神经中枢主要位于内侧上橄榄核,由此再向高位听觉中枢发出声源定位的神经信息,进行更高级的信息处理过程。
对于高频声音刺激两耳时差效应并不如低频声刺激那样有效,对此在听觉系统中还有双耳强度差效应。如果一个高频声波来自左侧或右侧,由于头部本身构成了声音传播的障碍物,使其达对侧耳中的音强受到损耗,这样在两耳之间形成了音强差,导致神经元单位发放频率的不对称性。靠双耳音强差对高频声源定位的中枢位于外侧上橄榄核。
六、听觉门控理论与听觉门控障碍
幻听是精神分裂症常见的症状,病人常常听到脑内有人在争论或评论自己所作所为,还不时发出一些指示或命令,使病人不可违抗地按命令做出荒唐的事情。近年研究发现,听觉系统的感觉门控机制受损,导致无关的听觉刺激大量涌入脑内,是造成精神分裂症精神障碍的原因之一。利用间隔500毫秒的两个短声引出的听觉平均诱发电位中,两个中潜伏成分P50幅值之比,是感觉门控机制测量指标。正常人由于听觉适应性,对第二个短声的反应明显低于对第一个短声的反应,所以,第二个P50与第一个P50之比小于0.7,称为P50抑制;而精神分裂症病人适应性反应能力差,对两个短声的反应没有太大的差异,所以两个P50波幅之比近似1或大于0.8,将之称为P50抑制障碍,这也是听感觉门控障碍的测试指标。