法概念的跨语际旅行:从意义单位到翻译单位
上QQ阅读APP看书,第一时间看更新

第三节 法律翻译的智能实现

在大力统筹推进国内法治和涉外法治的大背景下,从立法领域到司法领域,从法律实践到法学理论都离不开法律翻译活动。无论是学界专家或译界实践先锋都对中外法律交涉/法律翻译有着较为一致的认识,即法律翻译并非词语对等,而是从语义、功能对等到法律概念的等价。法律翻译也不仅是词语的鏖战,更是一场宏大的跨语际旅行。文本之外不同国家的民族意志、历史积淀、国家主义等因素都以独特的姿态进入了世界舞台。同时,当下兴旺的互联网、数字化催生了“虚拟-现实”的双重世界,使得数字生产的方方面面都受到了前所未有的冲击与变革。

基于此,本书围绕着法律概念、法律翻译、新技术方法三个核心主题展开,试图在数字时代找到法律概念由原文中的“意义单位”外化为“翻译单位”后,进入不同法系再次内化为“意义单位”的过程。全书以笔者主持的上海市哲学社科规划项目(青年项目)“语料库驱动下的汉英立法文本翻译单位研究”的相关研究为基础写作完成,该项目的核心内容即通过数据采集,创建高质量法律翻译语料库:项目通过网络采集香港律政司所颁布的权威双语立法文本(共计22万句对,约600万词频),另收集整理全国人大法工委组织开展的《中华人民共和国民法典》英译、上海市司法局行政法制研究所汉英《上海城市法规全书》(《上海城市法典》)、上海市高级人民法院委托的汉英“金融商事审判白皮书”(包括《2020年度上海法院金融商事审判情况通报》《2016—2020年上海法院涉地方金融组织纠纷案件审判情况通报》以及《2020年度上海法院金融商事审判十大案例》)等高质量双语文本作为入库数据。在此基础上,笔者所在上述项目团队采用术语提取技术,整理出《重要汉英民法术语及扩展翻译单位列表》(见附录),可作为后续翻译实践的重要参考,并形成术语库。

值得注意的是,项目创建的语料库中所包含的大量双语句对,绝大部分没有被标注具体类别(如司法、立法、法学或具体部门法),剩下的一些句对虽然被标注了类别,但不精确,被准确标注的句对只占相当少的一部分。考虑到任何数据平台上的语料检索、内容分发与路由都依赖于准确的语料类别标注,因而对于这样大量的(千万量级)双语句对语料,项目主要基于Tmxmall平台架构,采用卷积神经网络(CNN)训练分类器模型,实现对所有现有的语料数据进行分类,并把分类器模型包装成web服务,对新增语料数据进行实时的分类。项目团队创新使用“四步”语料库建设方法,分别为:1.文件解析过滤器。2.调整段落对齐。3.对齐算法自动完成句句对齐。4.微调句-句对齐结果。其中,需要设计技术操作层面包括对齐算法的调整及检索功能的实现。以英语对齐为例:(1) 以段落为单位进行对齐,将中文和英文通过断句规则进行断句。断句后可以得到中文和英文的句子个数。(2) 计算中文句子的排列组合情况,根据中文句子的每种排列,使用插空法求解每种排列对应的英文句子排列组合,再计算每种中英文排列组合的对应句子相似度,从而挑选出相似度最大的中文和英文的排列组合,即为最终的对齐结果。项目中涉及的语料库建设原理、方法与成果构成了本书的基干部分,在第二章、第三章中都有具体论述,包括以下三个方面:

其一,是关于法律翻译对应单位研究的成果,包括:1.实现了汉英法律术语识别与提取。为最大程度保证术语库建设的质量和效率,项目组采取了基于多语种平行语料库的自动化术语抽取方法,通过与专业词典(如《元照英美法词典》)的词条进行匹配完成提取,并结合规则及统计模型以多种方法互补的模式进行操作。2.实现术语分类、聚类与相关性分析。首先采用三个步骤实现文本分类/聚类:(1) 文本表示;(2) 分类/聚类算法选择或设计;(3) 分类/聚类评估。在此基础上,项目组采取计算词语相似度的方法进行术语相关度分析,测算词与词的属性向量间的距离;使用词语空间和关系空间结构化存储词语与其上下文之间的统计信息,为词语相似度的计算提供数据支持。3.设计术语库的数据库结构,并搭建相应的检索系统,提供应用接口(API)以便计算机辅助翻译软件或其他机器翻译系统调用。

其二,提出“共选理论视角下的汉英法律翻译研究及扩展意义单位”这一语料库驱动的短语学工作模型。根据辛克莱(J. Sinclair)的观点,扩展意义单位共有5个构成成分,分别是节点词、语义韵、搭配、语义趋向和类联接。其中,类联接是节点词语法关系的抽象,是其共现于的语法或结构类型,而语义趋向是对搭配词语义特征的抽象,在分析比较研究对象及其英文对应语时应考虑这两个因素。基于此,本书分析了中国特色社会主义表达在扩展语义单位框架下的英译实现,引入阿尔滕贝格(B. Altenberg)提出的相互对应率概念及算法来处理出数据,通过分析意义单位与翻译单位(均基于短语型式)的相互对应率确定最终译文。此项研究可为机器翻译提供重要参考。

其三,是法律词汇化句干聚类分析及汉英翻译对应研究,并形成基于句对齐算法的研究成果。句对齐是翻译语料库建设的重点和难点,通常先以段落为单位进行对齐,将中文和英文通过断句规则进行断句,得到中文和英文的句子个数,在此基础上根据中文句子的每种排列,使用插空法求解每种排列对应的英文句子排列组合,再计算每种中英文排列组合的对应句子相似度,从而挑选出相似度最大的中文和英文的排列组合,即为最终的对齐结果。本书在回顾现有语料对齐技术的基础上,对最新的在线语料对齐方案进行介绍和探讨。

第四章是关于语料库驱动下民法术语变迁及其英译的研究(1978—2020),是在上述语料库建设研究基础上的具体应用成果,亦为项目最终成果的重要组成。无论我们的法律思想、制度如何变化,表达法律的方式始终不变。语言作为法律的载体,是法治精神的具体体现。故此,在以上研究内容之外,笔者从民法语言的历时变化入手,回望社会变革和制度变迁,并从语言层面跃至跨语言层面,以“要求—请求”“社会公共利益—公序良俗”“其他组织—非法人组织”等法律语言的变迁为例,在话语变化中梳理历史演进的线索,并从以上表达的翻译形式中发现问题、找寻对策。

第五章主要探讨了智能时代法律与语言的学理交融推进,通过引介法律与语言交叉学科的新研究方向——法律和语料库语言学(LCL)的诞生与发展,进而分析了语料库语言学作为法律意义测量工具的可能性。在论述过程中,笔者梳理了在美国司法领域应用语料库语言学分析的经典案例,探寻了利用语料库语言学方法可以打破基于词典、法官常识判断的弊端,更加适用于法律解释领域。同时,本书还探讨了法律与语言结合的未来方案,并以法律知识图谱构建为例释,为法律解释学发展提供了一条新路径。