第二节语块与语言研究_国际汉语初级阶段语块构建研究-QQ阅读男生科幻网

上QQ阅读APP看书，第一时间看更新

第二节　语块与语言研究

为对语块相关理论问题有一个较为全面、清晰的认识，本书主要介绍国外语言学界关于语块界定、选取、分类等问题的重要讨论，并概述汉语学界相关研究现状。

一、语块的界定

关于“语块”的概念，不同学者所使用的术语及界定各有特色。

Becker（1975）最早从语言学角度对“语块”（lexical chunk）进行了界定：

在语言使用中，语块作为人类记忆和存储、输出和使用的固定的或半固定模式化的板块结构，是人类交际的最小单位。

Yorio（1980）把习语和套语（routine formulas）统称为“惯常形式”（conventionalized forms），并认为套语是一种预制的高度习语化的表达，常与特定的交际情景相联系。

Bolander（1989）将“程式语言”（formulaic speech）定义为组成句子的各种类型的常见词语组合，并强调这些词语组合的预制性、易于提取。

Nattinger&DeCarrico（1992）使用了“词汇短语”（lexical phrases）这一概念，认为它们是一些长度不一的语块，是一种介于传统的词汇与语法之间的由多词构成的语言结构，具有较为固定的形式、功能和习语性的意义。

Moon（1998）把介于词与词组之间的成分称为“固定表达与习语”（fixed expressions and idioms）。其中，固定表达是指由两个或两个以上词语组成的整体单位，包括各种短语、熟语性单位（phraseological units）和多词词汇单位。

Glaser（1998）将熟语性单位（phraseological units）定义为日常使用中的一种词汇化的复现双词位（reproducible bilexemic）或者多词组合，它们在语义和句法上具有相对的稳定性，可能已经习语化，或者承载一定的含义，或者在文本中具有强调或加强等功能。熟语性单位分为类词熟语单位（word-like）和类句熟语单位（sentence-like），前者包括习语和非习语，其中非习语意义透明，如科技术语、专有名词、陈词滥调（cliche）、短语动词及其他一些固定表达；后者包括谚语、常识（commonplaces）、常用套语（routine formulae）、俚语（slogans）、名言（commandments and maxims）、引用和中肯之辞（quotations and winged words）。值得注意的是，Glaser将科技术语和专有名词也纳入到熟语性单位之中。

Hickey（1993）在考察了第一语言和第二语言习得相关文献中关于语块的定义后，认为同时存在两种不同的倾向：一种将其视为固化的短语，很难从中获得词汇的或语法的信息，而另一种则认为这些表达一开始会被儿童整体使用，但之后会被分解为不同组成成分，其中可能还存在一个中间状态，即只有一部分能被分析。

对上述关于“语块”界定的观点进行梳理和对比，不难发现以下共同点：虽然表述不同，但都不同程度地涉及了“预制性”这一特点；都倾向于将其视为不同于词、短语、句子等传统语言单位的独立单位。但各家之说也存在着明显的差异，主要表现在：对“语块”作为语言单位的属性认识不同，有人认为是介于词与句子之间的单位，有人认为是介于词与词组之间的单位，有人则明确提出是“人类交际的最小单位”；与之相应的，对“语块”的外延认识也不尽相同，或者只包含部分词语组合，或者从构词成分到句子无所不包；另外，称说“语块”所用名称形色各异，即缺乏统一的术语。同时，这些说法也存在着明显的不足或问题，主要表现在缺乏科学严谨的界定，有的甚至不能算是严格意义上的“定义”，只能说是一种“认识”或“描述”，较为模糊，且缺乏一个更为客观和广阔的视角。

Wray（2000）梳理了已有文献中使用过的相关术语，多达50种，但实际数量更多。除上文所提到的术语外，“预制语言”（prefabricated language），“词汇化句干”（lexicalized sentence stems），“预制复合单位”（ready-made complex unites），“多词单位”（multi-word unites/sequences），“言语程式”（speech formulae），“程式化语言”（formulaic language/sequences）等也都是英语学界较为常见的术语[2]。

Wray（2000）指出，这些建立在不同类型语料数据（第一语言学习者的输出语料、第二语言学习者的输出语料、成人母语的输出语料等）之上的术语，很容易给读者造成困惑或误解，应当有一个“中立的、包容广泛的”清晰而专门的术语。因此她使用了“formulaic sequence”这一术语并进行了如下定义：[3]

a sequence,continuous or discontinuous,of words or other meaning elements,which is,or appears to be,prefabricated：that is,stored and retrieved whole from memory at the time of use,rather than being subject to generation or analysis by the language grammar.（一个由词语或其他意义成分组成的连续的或非连续的序列，具有或表现出预制性，即：在使用时，它在记忆中被整体存储和提取，而不是以语法的方式生成或进行分析。）（Wray，2000：465）

这一定义没有更多地从形式（form）和功能（function）的角度去界定，而是从认知的角度将“预制性”作为最重要的判定标准，从而表现出了足够的包容性，上面提到的诸多概念或现象基本都可以在此框架下进行讨论。

二、语块的选取

在实际操作中，如何确定某一语言单位是不是“语块”可能要比抽象地定义“语块”复杂得多，尤其是对那些习用语之外的多词语组合。

早在20世纪20年代，Jesperson在讨论程式语和自由短语之间的区别时就较为详细地分析了程式语的特点，即如何判断一个表达是否为程式语。Jesperson（1924）认为作为程式语非常重要的一点就是“no one can change anything in them”（18），其重音、节奏和组成成分甚至词序（word-order）都不能被随意更改，而是作为整体被感知和掌握。另外，在意义上，程式语常常不是组成成分的意义的简单相加，而是表达与字面意义相去甚远的语义。可以说，Jesperson（1924）主要是依据词语组合的外在形式，尤其是语音形式进行判断。Wong Fillmore在她的研究中发展了Jesperson的方法，认为程式语是“功能在整体上或部分上不可被分析，对说话人而言是固定的或自动的言语单位”（转引自Hickey，1993）。

在前人讨论的基础上，Hickey（1993）考察了前人所论及的识别“formula”的一系列条件，制定出一套“优先规则系统”（preference rule system），参见下表。

表1.1　Hickey（1993）：语块识别“优先规则系统”

（引自Hickey，1993）

Hickey列出了识别“formula”的九个条件，其中“不小于两个语素长度”和“语音黏合”这两个外在形式上的特点是必要条件（Necessary），即一个“formula”在形式上必须符合这两个条件。而“组成成分不能以同样的形式用于其他环境或独立使用”“语法上表现出高级性”“广泛的使用或频繁的出现”“独特的组块”“以同一形式被重复使用”“语境依赖性”“句法或语义上的不恰当性”等则是典型条件（Typical），是判断一个单位是否“formula”的重要依据，符合的条件越多，其作为“formula”的可能性越大。同时，一些条件是有层级性的（graded）。Hickey认为这样一套规则系统可以解决Jackendoff提到的“判断的等级和诸多限定条件下的例外现象”这一问题，使对语块的识别更为严谨和清楚。这里需要特别说明的是，Hickey所提出的判断标准是针对儿童一语习得中的“formula”所进行的。虽然其中某些条件似乎只适用于少儿（Wray 2002：39-40），有一定的局限性，但其对优先规则系统的运用仍具有启发性。这一规则系统的主要问题，一是针对儿童一语习得，及Wray提到的语料库的限制问题；二是在实际操作中仍会出现因人而异或模糊不清的问题。

Wray（2008）提出了一种识别语块的诊断方法，包括11种判别标准，并举例说明了如何使用这些标准进行操作。但她又强调说这其实不是一种识别方法，而更像是分析方法，即帮助研究者更好地理解为什么某些词语串被认定为语块。[4]在这之前，Wray（2002）就已经对前人研究中有关语块的各种可能的识别方法进行了全面而细致的述评。除了对频率（Frequency）、结构（Structure）和语音形式（Phonological Form）[5]这三个常被提及的标准进行分析外，还特别论述了“直觉”（Intuition）和“共享知识”（Shared Knowledge）在判断语块中的作用。在引证不同观点及分析各方法的优劣得失之后，Wray做出了如下结论：

In all cases,we have found too little basis for separating off the establishment of a basic definition from the setting up of robust criteria for identification.In short,you can’t reliably identify something until you have independent verification of what it is you are trying to identify.In every case,formulaicity seems to manifest too great a diversity of potential forms to submit to predictability beyond the most general and mundane level……It may simply be that identification cannot be based on a single criterion,but rather needs to draw on a suite of features.Alternatively,formulaicity may be governed by some unifying criterion that our efforts so far have failed to capture.（我们发现，在所有情况下想要从一系列坚实的识别标准的建立中离析出一个基本的定义都缺乏相关基础。简言之，你无法确认某一事物，除非你已经拥有关于你所要确认事物的独立验证。在任何情况下，程式性似乎都在形式上表现出太多的可能性，超越了最普遍寻常的水平，从而难以具备预测性。……这可能意味着识别语块不能只建立在单一标准之上，而需要刻画出一系列特征。另一种可能的情况是，程式性或许被某个至今尚未被发现的相一致的准则所控制。）（Wray，2002：43）

或许情况并没有Wray所说的那么悲观，她更多的是希望尝试不同的角度或方法以有所突破。不过，Wray所提到的问题确实存在，需要一个更为开阔的思路和更为审慎的态度来应对。

Wood（2015）在讨论了各种识别语块的标准和方法之后，得出了以下结论（32）：

（1）从文本、语料库等中识别语块并非易事。

（2）语块可以通过多种方法来识别。

（3）综合运用不同标准可能是识别语块的最佳方式。

（4）语块可以通过专家或母语者在清单指导下的判断来识别。

（5）无论是哪种测量标准，绝对的确定性都是难以实现的。

考察对比各家之说，可以发现讨论的重点主要集中在以下几个方面：外在形式（单位长度、语音形式）、内部结构（句法不透明、语义曲折）、出现频率以及使用的得体性等。为使问题更为集中和明晰，下文讨论汉语语块的选取标准时将分别进行具体评析。

诸多关于语块确认标准的讨论并没有完全达成共识，切入角度、操作方法等都有所不同，但似乎又都不完满。Hakuta（1974）很早就注意到，这一问题的复杂性很容易使很多语块难以被识别、确认。所以，正如Wray（2000）所说，如何以一种统一而严谨的方法确定语块这一问题还远未解决。不过，Hickey（1993）提出的方案对这一问题的探索仍具有启发意义：在一系列判定条件之中，一个单位被认定为语块必须满足其中的必要条件，但只有典型的语块才有可能满足大部分条件。

三、语块的分类

在诸多关于语块的界定和识别的讨论中，不难看出语块内部构成的丰富性和复杂性，也正因此，对语块进行分类也就显得尤为重要，同时也十分困难。实际上，语块的界定和识别已经为进一步的分类设定了框架、勾勒了边界，甚至已经圈定了某些类别，或者可以说，这些讨论恰恰是以某些预设的语块类别（这些通常被认为是典型的语块）为起点和基础的。下面，我们将重点介绍几种具有代表性的语块分类，并简要评析。

Nattinger&DeCarrico（1992）提出了从结构上将“词汇短语”（lexical phrases）进行分类的标准：1）词汇单位的长度和语法地位；2）词汇短语是标准的还是非标准的；3）词汇短语是可变化的还是凝固的；4）词汇短语是连续的还是非连续的，即其是一个不可分割的词语序列还是中间能插入其他词汇项目。并据此将其分为四类：1）多词语块（Polywords），如：for the most part,by the way,you know；2）习语语块（Institutionalized expressions），如：a watched pot never boils,how are you,get a life；3）短语架构语块（Phrasal constraints），如：a（day,year,very long time……）ago,good（morning,afternoon……），as far as I（know,can tell……）；4）句子构建语块（Sentence builders），如：I think（that）X,it’s only in X that Y（38-44）。具体如下表：

表1.2　Nattinger&DeCarrico（1992）的语块分类

（引自Nattinger&DeCarrico，1992：45 Figure7）

由上表可以看出，Nattinger和DeCarrico虽未明确提出，但实际上已经显示出将语块作为一个连续统来看待这样一种倾向，即从凝固到自由、从连续到非连续的具有连续性的系统，同时区分了不同语法层面的语块。

另外，Nattinger&DeCarrico根据在口头和书面语篇中的功能，又将语块分为社交互动型（Social interactions）、必要话题型（Necessary topics）和语篇装置型（Discourse devices）三种类型。

Lewis（1993）提出语言是语法化的词汇而非词汇化的语法，并根据“词汇组块”（lexical chunks）的语法结构将其分为多词词汇（poly-words）、高频搭配组合（high frequency collocations）、固定表达（fixed expressions）和半固定表达（semi-fixed expressions）等四类。Howarth（1998）则从语法的角度把语块分为三类：纯习语（pure idioms）、比喻习语（figurative idioms）和有限搭配（restricted collocations）。

Howarth（1998）将以往研究中所讨论的语块置于“word combina-tions”这一概念下，并进行了细分。如下面图表所示：

图1.1　Howarth（1998）语块分类

（引自Howarth，1998：27 Figure1：Phraseological categories）

首先根据是否具有话语功能分为功能表达（functional expressions）和组合单位（composite units）。前者根据其在语篇中的功能角色确定，如开篇策略（gambits）等语篇结构装置（discourse-structuring devices），以及谚语（proverbs）、广告语（catchphrases）、口号（slogans）等自成语篇的语块。后者则在小句或句子层面具有句法功能，如介词短语、名词短语等等，又可分为语法组成单位（grammatical composites）和词汇组成单位（lexicalcomposites）。然后，根据是否具有习语性再将每一类进一步细分为习语性语块（idiomatic）和非习语性语块（non-idiomatic）。习语性和非习语性的区分是这一分类体系的重要特征。另外，Howarth特别强调，这一分类体系并非简单的二分法，而是一个具有连续性的系统，明确提出了语块的“连续统”概念。

表1.3　Howarth（1998）组合搭配连续统

（引自Howarth，1998：28 Figure 2：Collocational continuum）

以上几种分类，是目前学界比较通行的关于语块的分类方法，基本上是在区分“形式”（form）和“功能”（function）的基础上所进行的划分，而实际上二者有时难以厘清（Wray，2000）。比如，“多词语块”“习语语块”及“短语架构语块”恐怕很难说是完全从结构上进行的划分，因而也就难免会出现交叉、难于归类或有争议的两可现象等，这同样是其他几种分类体系所面临的问题。所以对语块的分类往往容易流于笼统或嫌庞杂细琐。而目前相关研究实际上也多是在这样的框架下进行的，以多词语（Biber&Cortes，2004；Arnaud&Savignon，1997）、习语（Conklin&Schmitt，2008；Fernando，1996）、短语（Liao&Y.Fukuya，2004；Howarth，2004；Cowie，1998；Howarth，1998）、搭配（Nesselhauf，2005；Altenberg&Granger，2001；Sinclair，1991）等某一类语块为研究对象，在对比考察这些研究讨论的对象后，笔者发现，目前分类体系所存在的问题表现得更加明显。当然也有将“语块”作为一个整体概念不加细究的整合研究（Taguchi，2008；Bardovi-Harlig，2002等），直接选取那些看似没有争议的语块，实际上绕开了相关难题。

四、汉语学界研究概况

国内外语学界在概念和术语的使用上基本与国外相对应（原萍、郭粉绒，2010；段士平，2008；刘加英，2006；王立非、张大凤，2006；姚宝梁，2004；刘晓玲、阳志清，2003等），比较多样；而汉语学界在讨论时则多以“语块”或“预制语块”指称（苏丹洁、陆俭明，2010；亓文香，2008；钱旭菁，2008a、2008b；周健，2007a、2007b；李晓琪，2004等），很少使用其他术语。除引用原文及便于比较说明外，本书将使用“语块”这一术语进行讨论，一则在汉语学界使用广泛，已被多数人所接受，二则简明形象，易于理解。

1.汉语语块的界定问题

周健（2007a）最早对汉语语块进行了界定，认为语块是“一种经常出现在各类句子中的、具有构句功能的、比词大的单位”。严格地说，这并不是一个完整的定义。即便联系上下文，其对语块的界定仍显得模糊不清。具体来看，这一定义更多强调的是语块的句法功能，而仅凭此条标准显然无法将“语块”与其他单位有效区分开来。此外，“经常出现”这一标准似乎涉及频率因素，但这一表述不仅过于笼统、模糊，而且也不可避免地带有前文所提到的一个问题，即，某些被普遍认为是语块的组合在语料中的出现频率却不高，而在语料中重复出现次数较多的词语组合却未必是语块。

相较而言，钱旭菁（2008a）对汉语语块的界定则更为完整、清晰。她认为，搭配、惯用语、成语、歇后语、谚语、格言、名言、警句、会话套语、儿歌、歌词、宗教经文等都是由多个词构成、整体储存、整体提取、整体使用的语言结构，都是语块。其实是用了列举性的方式来进行界定，不过从中可以看出，“由多个词构成、整体储存、整体提取、整体使用的语言结构”这一界定基本上沿用了Wray（2000）对“formulaic sequences”的定义。

王慧（2007）也基本遵循了Wray（2000）的界定，认为汉语中的语块是“两个或两个以上词语的组合，语音连贯”、具有“固定性”的单位。这里特别强调了“语音连贯”这一形式特征，但我们认为这一语音形式上的限定反而使其界定具有较大的局限性，使得一些可能的语块形式难以囊括其中。尤其是要考虑到汉语独特的韵律结构，“语音连贯”或者“黏合”等语音特征都要做更为深入细致的讨论。而周倞（2009）对语块下的定义是：语块是由词组成的、大于词的、语义和形式固定的、在语境中经常整体出现、分割后或改变意义或不符合语言习惯的造句单位。首先，根据这一定义，语块被界定为介于词和句子之间的语言单位。所以，以句子形式出现的熟语，如“有理走遍天下，无理寸步难行”“当一天和尚撞一天钟”“恕不奉陪”以及钱文所提到的会话套语等就都被剔除出语块范畴。这样的处理是否合适值得商榷。其次，“在语境中经常整体出现”也面临着与周健（2007a）同样的问题。另外，其表述的准确性和简明性也有待提升。

目前而言，关于汉语语块的界定不仅没有形成较高程度的共识，同时也缺乏一个完整、清晰以及足够开放的定义。

2.汉语语块的分类问题

周健（2007b）统计的45个句子中共有常用语块63个，即平均每句1.4个。我们暂且不论这一统计数据能在多大程度上说明问题，但汉语中语块的大量存在确是显而易见的。甚至，汉语中的语块可能比英语更丰富、在交际中更活跃（李晓琪，2004）。从汉语丰富的成语、俗语、歇后语、虚词等等可见一斑。关于汉语语块的分类，一些学者也从不同角度进行了探讨。

周健（2007a）把汉语语块分为三类：词语组合搭配语块、习用短语、句子中连接成分等类固定结构[6]。其中，习用短语又包含固定形式和半固定形式两种。这一分类既缺乏明确的概念界定，也未能充分反映出汉语语块的整体面貌，而且也没有对每一类语块的性质、范围等做出足够充分的描述刻画，正如作者自己在文中所指出的，这是一种比较粗疏的划分。

钱旭菁（2008a）根据语块所属的语法单位层次将其分为词级语块、句级语块和语篇语块三类。词级语块即词组层面的语块，主要功能是在句子或句子以下层面实现其句法功能，包括搭配、惯用语、成语、歇后语；句级语块即句子层面的语块，主要是语用方面的功能，包括谚语、格言、名言、警句、会话套语；语篇语块则包括儿歌、歌词、宗教经文，属于语篇层面的语块。作者进一步将词级语块加以细分，首先根据构成成分能否替换成其他成分将其划分为自由组合和非自由组合，自由组合意义透明，是组合性的，而非自由组合的意义则可能是透明的、半透明的或不透明的。非自由组合根据其构成成分的可替换性又可划分为有限组合和凝固组合两类[7]。至于句级语块和语篇语块则未做进一步讨论。

亓文香（2008）则根据语法功能和结构形式把汉语语块分为：固定搭配、词语构造成分、句子构造成分。其中，固定搭配又包括固定词语形式（语法性很强的词汇，如“总算”“轻易”“简直”“不得了”等；意义和用法相对固定的短语，如成语等）、固定语法形式（如关联词语、“把”字句等特殊句式）、固定表达形式（格言、歇后语、谚语等形式固定、意义单一的句式和问候语、道别语、道歉语等程式语）。词语构造成分包括“家”“者”等构词词缀和短语限制结构，如“……就……”“……之类”等框架式短语。句子构造成分则是指为句子提供框架结构的短语或词汇，根据其在句中的位置又可分为前置位（如“所谓……”“据……”“谈到……”等）、中间位（如插入语“看上去”“说实在的”等）、后置位（如趋向补语“……起来”“……出来”“……下去”等）。可以说，这是目前我们所看到的涵盖最宽泛的汉语语块分类体系，小到词缀等词语构造成分，大到句式、程式语等，除了钱旭菁（2008a）提到的“语篇语块”外，几乎无所不包。但其中存在的问题也比较明显。首先，将语素层面的“词语构造成分”纳入到语块范围之内是否合适？尤其对汉语来说，这一点需要审慎处理。其次，某些类别层次、界限不明。比如，“词语构造成分”中的“短语限制结构”“关联词语”以及“句子构造成分”等之间，无论从划分依据还是实际操作上，似乎都让人难以把握。

图1.2　李慧（2008）语块分类示意图

李慧（2008）从结构上把汉语语块分为短语、固定语句和框架三大类。短语由多个词构成，固定语句是完整的句子，框架则是具有空槽、可填入成分组构短语或句子的模块。然后对短语类成分再分类：将格式固定、结构相对整齐的成语、惯用语和歇后语单独分离出来；根据意义的不同区分固定短语与固定组合[8]；语义透明的限制性搭配与高频搭配[9]。具体分类情况见图1.2。需要指出的是，这一分类存在与亓文类似的问题，即层次、界限不清。比如，“成语”“惯用语”“固定短语”“固定组合”与“限制性搭配”等其实是从不同角度按不同标准划分出来的，却都处在分类体系的同一层次上，并未将它们之间的关系梳理清楚。

王慧（2007）将汉语语块分为熟语语块（包括成语、惯用语、歇后语、缩略语、习用语等）、专有名词语块（如“中国寻根之旅”“慈善基金会”“人民大会堂”）、连接语块（如“因为……所以……”“我觉得……”）、插入性语块（如“毫无疑问”“不用说”“你知道吗”）、高频搭配语块（如“开玩笑”“做生意”“在+地点名词”“是……的”）、约定句子语块（如“您好”“请慢走”）。这一分类将不同层面的语块杂糅在一起，在概念和层次上似乎都显得较为混乱。

周倞（2009）参照周健（2007a）的分类，将汉语语块划分为固定结构、填补结构和关联结构，并进一步细分。参见下表。

表1.4　周倞（2009）语块分类表

（引自周倞，2009：15）

固定结构、填补结构和关联结构的固定性是依次减弱的，但“关联结构”和“填补结构”的界限比较模糊，“配伍词”和“固定搭配”之间的关系并没有完全厘清，“熟语、固定语语块”这一切分也比较笼统，还需进一步探讨。

综观以上几种关于汉语语块的分类，笔者发现相关研究在逐步深入和细化，并且取得了一些有益的成果。但总体而言，这些讨论基本上均未超出Nattinger&DeCarrico（1992）分类框架，且多是经验性、举例性的粗略分类，既缺乏充分的理论依据，又没有足够的数据实证，突出表现在系统性和层次性等问题上。那么，这样一种针对英语的分类框架是否完全适用于汉语？汉语语块的类型及特点能否得到较为全面、有效的概括和体现？可以说，由于缺乏明确的界定和判断标准，缺少以大规模语料库为基础的定量研究（钱旭菁，2008b），目前为止，关于汉语语块的分类问题尚未得到比较系统、深入的讨论，还有待进一步研究。