南方语言学·2014
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

雷州方言语音语料库建设研究的意义与价值[基金项目]湛江市哲学社会科学规划项目“雷州方言语音语料库建设研究”(主持人朱月明,项目号:ZJ14GJ05),2012年度教育部人文社会科学研究青年基金项目“福建莆仙方言与粤琼闽语比较研究”(主持人蔡国妹,项目号:12YJC740003)。感谢匿名审稿人提出的审稿意见,文中尚存问题,由作者负责。

朱月明1 甘于恩2

(1.湛江师范学院基础教育学院 广东湛江 5243002.暨南大学汉语方言研究中心 广东广州 510632)

提要 语音语料库已经成为语音研究和语音工程中不可或缺的重要技术手段和工具。粤西闽语语音数据的采集,与“向心型”方言粤语相比,显得十分薄弱。所以创建雷州话语音语料库,既可以为雷州地区的语言学习,尤其是为“推普”提供科学数据,又可以为保护地方非物质文化作出贡献。本文从三方面讨论雷州方言语料库建设研究的相关内涵。

关键词 雷州话 语音 语料库 研究 价值

一、概说

语音语料库是指为某一目的而录制的语音信号及其标注的集合,目前已成为语音研究和语音工程中不可或缺的重要手段和工具。实际上它已被广泛应用于日常生活中的诸多领域。例如公交车上的自动报站系统、车站和机场的自动车次与航班播报等,都使用了语音语料库技术。在这些系统中,人们听到的那些甜美的声音,并非由真人播报,而是利用事先录好的语音库数据,使用语音合成(简称TTS,即Text to Speech)技术实时合成播放出来的。

不仅在语音合成领域,在语音识别中,语音语料库也是必不可少的。现在手机的语音拨号功能,IBM公司的VIAVOICE软件以及微软公司在新版Word中集成的通过语音输入文字的功能,都属于语音识别(简称ASR,即Automatic Speech Recognition)的范畴。目前常用的语音识别技术,一般要事先录制海量识别训练语料库来“训练”识别系统(实际就是让识别软件根据相关技术和算法计算并存储语音信号与其文字内容间的映射数据),以使语音识别软件在实际应用中将发音人的语音信息根据最大概率识别成相应的文字信息。

除了上述语音合成和语音识别等工程领域,现代语音学各个领域的理论研究也无不依赖语音语料库的支持。在以往技术条件不完备的时代,语音学家只能根据“口耳之学”进行内省式的探索研究,这往往不够客观精确。现在有了精密的录音仪器和语料库技术的支持,语音学家通过对大量语料库数据进行统计、分析,可以更便捷地从中发现具有普遍意义的客观规律。

二、广东地区语音数据库的建设

(一)粤语语音数据库

进入21世纪,运用录音软件和语料库手段来采集、存储方言语料,成为一种趋势。较早从事这方面调查研究的有:邵慧君的“广东粤语语音数据库”(广东省哲学社会科学“十一五”规划2006年度项目,项目号:06JDXM740001),梁源的“粤语研究和粤方言口语语料库”(教育部2007年度人文社科项目,项目号:07JA740033),刘新中的“广东粤方言实验语音学研究”(2011年度广东省普通高校人文社会科学重点研究基地重大招标课题)等。潘悟云的教育部哲学社会科学研究重大课题攻关项目“汉语方言地理信息系统平台建设”(2010)虽然是全国性的,但其中不乏广东的语言资料(几十点)。

随着学科发展的深入,岭南方言语言数据库从小规模的选点调查转向较大规模的铺开调查,从抽样的调查转向密集的调查,这为方言地理信息系统的平台建设奠定了坚实的语料基础。其标志应是甘于恩主持的2013年度国家社会科学基金重点项目“粤、闽、客诸方言地理信息系统建设与研究”(项目号:13AYY001),目前项目已经启动,共分设21个子项目(按地级行政区划),其中过半数已经开始田野调查,积累了不少第一手有声数据,这些数据将对我们了解岭南方言的语音面貌,提供有力的支撑。

(二)闽语语音数据库

较早采用语料库手段采录岭南方言声调资源的,应该是广州中山大学的施其生教授,他于2003年申请了广东省哲学社科项目“潮汕方言声调语料库”(项目号:03/04H1-13),此项目于2008年结项。施氏在2010年举行的“广东汉语方言研究的理论与实践暨《广东粤方言地图集》专题研讨会”(暨南大学)上发表了题为“《潮汕方言声调语料库》的内容及功能”的论文,据作者介绍,《潮汕方言声调语料库》(光盘)是一个数据库,内含潮汕方言区20个方言点的声调数据。其内容包括:①各点调类。②各调类单字调、前变调、后变调的语音样本。③各调类单字调声调曲线上15个采样点的统计归一值、前变调和后变调声调曲线上10个采样点的统计归一值。④根据统计归一值得出的各调类的单字调、前变调、后变调五度制调值。⑤各调类单字调、前变调、后变调的区别性特征矩阵。⑥各调类单字调、前变调、后变调声调曲线图。⑦2000多个单字在主要方言点(汕头、达濠、文祠、凤凰、澄城、棉城、海门、榕城、流沙、黄冈)的调类信息。⑧连读变调的语句和例词样本。然而此文没有正式发表,我们能了解的信息非常有限,所以亦无法对该声调语料库的特点进行实质的评价。

与闽方言关系较大的子项目有:揭阳地区方言的地理语言学研究(主持人吴芳,项目号:14FZ04)、潮州地区方言的地理语言学研究(主持人徐宇航)、汕头地区方言的地理语言学研究(主持人洪英)、汕尾地区方言的地理语言学研究(主持人谢若秋)、雷州半岛方言地理信息系统建设与研究(主持人赵越),当然这些项目也涉及区内的其他方言,并不局限于闽方言。陈云龙主持的2014年度国家社科基金重点项目“岭南濒危方言有声数据库建设”亦有涉及闽语点。邵慧君主持的2011年度国家社科项目“粤西湛茂地区粤、客、闽方言接触研究”(项目号:11BYY026)主要侧重于廉江、电白等地粤、闽、客的接触关系,其中闽方言语音数据亦有数点。

(三)客家话语音数据库

客家话的语音数据库建设相对滞后,侯小英主持的子项目“梅州地区地理语言学研究与地理信息系统”(项目号:14FZT01)有望改变这种面貌,目前调查正在紧锣密鼓地进行,已调查了近30个点的语音数据。

由庄初升主持的国家社科基金重大项目“海内外客家方言的语料库建设和综合比较研究”(项目号:14ZDB103)积累了梅县客话、东莞客话等约20个音档,具有较高的质量。

三、雷州方言语音语料库建设的意义与价值及其主要内容

(一)雷州方言语音语料库建设的意义与价值

尽管普通话语音识别、语音合成系统的开发取得了很大进步,但作为现代汉语的组成部分的汉语方言,这方面仍然具有诸多扩展空间。因此,要提高方言语音识别率、进行方言语音合成,就需要建设方言语音语料库。

语料库语言学经过半个多世纪的发展,已经进入比较成熟的应用阶段。语料库的“教学加工”(Pedagogic Processing)是目前国内外不少学者对语料库应用于语言教育教学的深刻反思。它包括如何让语料库走进语言教学大纲的设置、教材的编写、课堂教学活动设计、实施和效果评估等。在国内,虽然业内人士越来越认同语料库作为一种资源和新技术对教学有巨大的潜在价值,但语料库辅助的教学还未能切实进入教学主流。因此,本课题力图创建雷州方言语音语料库,分析雷州话内部的差异,目的是提高当地的语言研究水平,并将语料库与普通话教学结合起来,为当地的语文教学积累丰富的资源。

语料库语言学以真实语言数据为研究对象,凭借计算机技术,采用数据驱动的实证主义研究方法,从宏观的角度对大量的语言事实、语言交际和语言学习的行为规律进行多层面的研究。

此外,雷州方言是雷州文化的重要载体,将雷州方言数据保存下来,对于传承方言的原生态面貌意义重大,对于研究和开发岭南文化也具有重要价值。因此,创建雷州话语音语料库,既可以为雷州地区的语言学习,尤其是为“推普”提供科学数据,又可以为对湛江地区语言资源的抢救、保护和利用作出积极贡献,使雷州方言的研究提升至一个新的高度。

(二)雷州方言语音语料库的主要内容

“雷州方言语音语料库建设研究”主要包括以下几方面内容:

(1)利用中国社科院语言研究所编制的《方言调查字表》和由上海师范大学语言研究所针对方言调查研制的“斐风”软件,寻找当地合适的发音人,系统调查湛江地区雷州方言语音、词汇、语法面貌,通过比较遂溪、梅州、徐闻等地雷州话的内部差异,分析形成差异的原因,从而归纳出湛江地区雷州方言的主要特点。

(2)创建多模态语料库,即语料库与音频和视频相连接的甚至是同步共现的综合性教学资源库,使语料库进入教学研究的层面,从而为普通话教学提供有力的底层数据支持。

(3)建设基于语料库的学习平台和多媒体语料库集成语料检索技术、网络音视频流媒体技术及人机交互界面,真正实现虚拟语料驱动学习。

参考文献

[1]陈云龙.有声数据库原生态存储岭南濒危方言[N].中国社会科学报(人文岭南),2014-09-26(2).

[2]甘于恩主编.粤语与文化研究参考书目[M].广州:广东科技出版社,2007.

[3]甘于恩,李菲.岭南方言声调数据库建设的一些想法[A].首届中国语言资源国际学术研讨会,2014.

[4]詹伯慧,甘于恩.雷州方言与雷州文化[J].学术研究,2002(9).

[5]中国社会科学院语言研究所.方言调查字表[Z].北京:商务印书馆,1981.