银行家的全面风险管理:基于巴塞尔II追求银行价值增值
上QQ阅读APP看书,第一时间看更新

第三节
数据整合及其质量控制

一、业务系统整合

数据整合包括业务系统整合、数据源整合以及数据整合方法。例如,国际主流银行信用评级数据主要从业务流程系统中直接获得,以确保数据的及时性和准确性。前台业务流程与后台评级系统始终处于平行状态,授信业务一旦发生,相关数据就会立即传送到前台,使之发挥决策支持作用;同时,业务流程系统和内部评级系统生成的数据记录和分析结果都按照统一数据标准存入银行数据库,信用风险评级、市场风险计量、操作风险计量以及资本评估定期所做的参数分析和返回检验都是基于数据库的历史数据来完成,见图3-7。

图3-7 全面风险管理信息系统衔接与整合

二、数据源整合

在业务之外,还有许多重要数据源于银行以外的政府部门或研究机构,如宏观运行、产业结构、市场行情、法规变化等。发展中国家银行大多内部数据积累不充分,且数据质量较差。要在短时间内建立一个能应用于实际业务的评级系统,就应以外部数据补充。在缺乏数据积累情况下,在确保所采用外部数据具有真实性、有效性及对银行内部数据具有代表性的前提下,内部评级法银行可在一定程度上依靠外部数据。中资商业银行在缺乏数据积累的情况下,可通过适当方式从中央银行、银监会、国家统计局、财政部、国务院发展研究中心等政府部门或相关的外部评级机构获取宏观、微观数据。源于不同系统的数据必须通过企业法人代码或贷款卡号进行映射和链接,从而完成客户信息集合。对于同一客户,不同信息来源有时可能出现重叠字段,而信息内容又存在严重不一致,此时应通过适当方式加以核实。如确实无法确认哪一个是真实数据,就应依据风险计量保守原则,取风险较高的指标值。

数据整合的主要问题是,不同数据源的客户标识和信息内容不同,造成客户记录匹配十分困难。这时,常用模糊匹配的算法寻找相同记录,进行客户匹配。不同来源的客户信息共同具有的客户信息片断可用于客户匹配,如电话号码、姓名和地址等。在客户记录匹配时,如果两两配对,随着数据增多,计算量将大大增加。根据公式nn-1)/2,当有5万条记录时,记录比较的次数为1249975000次。实际上,5万条记录对许多商业银行还是很少的。为减少这方面工作量,可先对客户记录进行聚类分析,将其分成若干部分,只有分在相同客户记录才可以相互匹配,这样就会大大减少运算量。

通过聚类和匹配,如果发现几条匹配记录,就对这些记录合并。实际上,这也是实行客户关系管理初衷,也就是把不同来源信息合并在一起,产生对客户总体看法,如账户信息、信用等级、投资活动、对直接营销反应等。在合并记录时,客户信息片断互相矛盾,这时需要为信息合并建立一些规则,如各信息源权威不同,经常账户上的地址要比退休账户上的地址权威一些;越接近当前日期信息片断,其准确性可能越高,重复率高的信息可能更准确一些。如三个信息源中两个顾客电话号码相同,重复电话号码可能是正确的。

记录匹配的完整性和准确性是很重要的。如果没有对相同客户进行匹配,银行会把一个客户当成两个甚至更多客户对待,客户数量就夸大了。例如,根据美国META集团的研究,医疗机构病历约有5%—30%是重复的。但同时,如果把本不应该合并的记录合并了,这时对客户的评价也是歪曲的。这些不完整、不准确和不可靠的匹配都会导致不准确的分析和决策,使银行费用增加、利润减少,例如对客户信用等级认识错误会导致投资风险,对客户价值认识不充分就会失去顾客,错误记录会导致营销资源浪费等。

三、数据反欺诈

欺诈性数据大多出现在客户向银行提供的授信申请材料中,对公司客户而言,集中体现为企业提供的财务报表数据不够真实。虚假财务报表主要有高估资产、低估负债、利润最大化、巨额利润冲销、虚增主营业务收入、虚减成本费用、利用减值准备调节利润、利用关联交易操纵利润、利用其他应收账款调节利润、利润均衡化,等等。

根据常见的虚假财务报表,可以总结和积累一批实用的分析、识别公司财务报表信息失真的方法,提炼后并入专家分析系统,并将其模型化、程序化和系统化。

1.对关联交易分析

识别方法是将来自关联企业营业收入和利润总额从企业利润表中予以剔除,如果企业来源于关联企业的营业收入和利润所占比例过高,银行就应特别关注关联交易的定价政策、发生时间、发生地点等,以判断企业是否通过关联交易来进行报表粉饰。

2.对不良资产分析

识别方法是将不良资产总额与净资产比较,如不良资产总额接近或超过净资产,即说明该公司持续经营能力可能有问题;也可将当期不良资产增加额与当期利润总额相比较,如前者超过后者,公司当期利润表可能不真实。

3.对合并报表分析

将母公司财务数据与合并报表的数据进行比较分析,来判断财务数据的真实性,以识别母公司通过子公司或孙公司来实现利润虚增问题。

4.对或有事项分析

或有事项是指因过去的交易或企业行为造成的一种财务状况。常见的或有事项有对外担保、未决诉讼、未决索赔、税务纠纷、产品质量保证、商业票据背书转让或贴现等。经验表明,重大的或有事项往往蕴涵着严重的财务危机,在财务反欺诈过程中银行分析人员应根据所涉及的金额,予以足够的关注。

5.对重点科目分析

企业报表作假时,常用的账户包括应收账款、其他应收款、其他应付款、存货、投资收益、无形资产、补贴收入、四项准备等会计科目。如这些会计科目出现异常变动,必须认真对待,分析企业是否存在利用这些科目进行利润操纵的可能性。

6.对预警信号分析

常见的风险预警信号包括:(1)应收账款或存货的增长速度远远大于销售收入的增长速度;(2)公司利用会计方法达到利润目标;(3)公司没有新业务扩充计划或财务计划,但债务比重大幅增加;(4)公司在快速增长时出现失控;(5)在建工程一直挂在账上,这往往意味着这是块被废弃的不良资产,或者是以前年度造假的产物;(6)公司管理阶层以牺牲公司业务的其他方面去满足利润目标;(7)子公司长期亏损或业绩平平,而企业却热衷搞兼并、收购等资本运作;(8)公司会计报表近乎完美;(9)企业做较大的会计调整,特别是在年末的调整应特别予以关注;(10)使利润大幅度增加的特殊交易,当企业人员向信用评级人员解释企业近期利润大增的原因是几笔特殊交易时,评级人员应进一步核实这些特殊交易;(11)因销售增长而异常增加的应收账款,或是虚增收入,或是放松赊账而可能导致资产质量恶化;(12)扩大的净利润与经营活动产生的现金净流量存在差异;(13)审计报告中出现保留意见,有保留意见的审计报告表明企业领导层与会计事务所存在重大分歧;(14)利润总额与应税利润总额的差异增大,可能是没有按照税法规定提取折旧或摊销,也可能是企业的一些费用和捐赠按规定不能税前扣除,但企业却扣除了。一旦出现上述类似的预警信号,信用评级人员就应谨慎地对待公司报表,包括财务报表注释,要进行仔细分析和对比,尤其要分析公司财务长期变化趋势,同时还要特别关注竞争对手、宏观经济环境等。

四、数据质量问题

数据质量问题的成因在于以下三点:一是产生于数据从创建者传到使用者的过程。客户数据大部分是由授信人员在做客户信用调查时得到并录入系统的,数据质量问题很可能产生于授信人员的调查过程与数据录入过程。二是产生于数据从一个机构卖到另一个机构过程。如,银行业分析时要使用的宏观数据,主要从政府部门或研究机构购买,由于各机构本身统计口径不一样,容易造成数据不一致。三是产生于数据从一个系统传到另一个系统的过程。如,授信数据从会计系统经过统计加工传送到内部评级系统时可能产生操作或程序错误。

数据质量问题主要表现为以下九种形式:一是数据缺失。有可能数据本身确实不明确,使输入人员无法判断。另外,如不是贷款申请者经过公正数据,而申请者自行填写,那不排除申请者故意隐瞒负面信息的可能。如果这个数据段中存在过多缺失值,该变量就不能进入模型。否则,模型会失去应有的解释力。二是拼写错误。录入中英文时,有时会出现错字或别字。属性为文本的字段可能不会进入模型,但这种错误导致字段匹配时错误。三是不常用的缩写。中、英文中存在的缩写,一个缩写可代表多种含义,因而造成歧义。四是自由格式的文本。录入时错误地把多种属性的字段填充到同一个字段内。五是值与字段含义不匹配。如,字段含义是城市,那么将国家名称填写会导致不匹配。六是违反特征从属性。如城市和邮政编码应该一致,行业代码和所处行业应该保持一致。七是相似重复记录。即,一个以上记录代表同一个实体。重复记录出现可能是因录入人员粗心,还可能因匹配字段值不规范,造成查询时无法有效匹配。八是相互矛盾的记录。同一个实体某个属性有多个不同值。九是错误引用。输入数据与事实不符合,但计算机没有判别能力,只能人为修正。

五、数据清洗方法

数据清洗是一个对输入数据库或量化模型的数据进行标准化和强化的过程。如,当格式不符合量化分析工具的要求,或原因代码没有像其他数据集中的代码那样标准化但需要映射到其他结构中时,均需数据净化处理。数据清洗目的是确保数据传送的准确性及符合指定数据格式。数据清洗工作是以人工或自动化方式进行,以减少系统数据不一致或误差(如数据的重复、不正确、不再相关、过时以及误用等)。数据清洗步骤包括数据剖析和数据标准化、数据验证、数据配对、数据修正及数据记录四个方面。另外在数据清洗过程中,将进行数据分歧检查方法以确定数据的问题,这包括统计性、模式、分群、关联规则分析。在数据优化过程中,数据清洗类别包括数据的使用、结构、格式及语义。数据清洗方法主要有基本处理法、缺失值处理法、重复数据处理法三类方法。在基本处理方法中又可分为简单比较法、数据库撞击法以及数据编辑法三个次类方法。对于缺失值处理,主要通过替代或推算方法将缺失数据补齐:替代法是找到一个尽可能与缺失项类似的替代值;推算法则以现有统计资料为基础,根据事物的联系及其发展规律推算缺失数据。这两类缺失值补救方法中常用的主要有演绎估计法、完全替代法、比例推算法、因素推算法、插补推算法、样本量替代法、最近距离替代法、回归替代法。在检测重复记录之前,需首先进行数据预处理。可从自由格式的字段中抽取数据结构。根据查找表来验证字段值正确性,若发现错误,则加以更正。然后,进行数据标准化,将同一类型数据用统一格式表示。近年来,国际研究人员提出过很多消除重复数据的算法,如匹配重复记录法、专家系统法以及数据挖掘法等,见图3-8。

图3-8 数据清洗方法结构示意图

数据清洗中,至少应包括以下内容:(1)对数据初始检查,至少包括检查数据间会计联系性规则,以保证数据质量。建模团队应清晰地列出应检查的规则,并总结检查结果和处理方法;(2)对数据调整和平均,必须书面记录这些调整规则和理由,对同一个数据集的调整规则应该是相同的;(3)在缺失值处理方面,对数据缺失的定义要有明确的标准,要有详细记录缺失值处理方法及理论依据;(4)在数据同质性检测方面,用于建模的数据应在风险特征上具有一致性,建模团队需有明确的方法检测数据的同质性;(5)对数据的异常值要有明确定义,详细记录异常值处理方法及其理论依据;(6)建模前应对数据的连续性和单调性进行检测,并分析和总结检测的结果;(7)对数据的相关性进行分析,详细说明和记录因相关性而排除在外的风险因子;(8)数据清洗是一个循环过程,所有清洗方法都必须被反复使用,便于解释,必须详细记录数据清洗程序和步骤,以便独立的第三方能够依照这些程序和步骤对同一数据集进行清洗之后达到相同的结果。

六、数据质量评价与监控

数据质量评价是对数据的完整性、代表性、充足性和一致性进行评价。评价数据完整性要看数据内涵上是否有完整的经济意义,评价数据代表性要看数据是否真实代表了同类业务交易的实际状况,评价数据充足性是看数据规模大小、数据观察期长短是否满足相关风险分析计量,评价数据一致性则要求同一数据源的不同观察期或不同数据源之间具有可比性。数据质量评价通常有直接评价和间接评价两种方法。在直接评价法中,可以通过计算机自动检测数据集合,并提供数据质量的评价报告,检测时要将用于检测的程序名称、算法及其他参考信息反映到数据质量报告中;也可以通过专家根据经验直接检查数据集合中的错误;还可以通过随机抽样检测,抽样比率一般在10%—20%,对重点要素适当提高抽样比率,用计算机或人工方法对抽样样本进行数据检查。

统计数据质量是指获得观察值与客观现象实际发生值间的差异,差异大说明数据质量差,差异小表明数据质量好,因此要控制数据质量必须控制其获取过程中的各种因素引起的偏差。从资料收集开始,直到后续的整理、描述、对比分析、估计,每一个环节都要监控管理,以减少数据偏差或传递误差,所以,数据质量控制应贯穿于统计活动的全过程。

数据质量监控是对达到一定质量标准的数据持续监控,以保证数据质量持续稳定,防止数据质量下降。通常监控的重点集中在四点:一是重点监控关键数据,对客户信用评级、债项风险评级的内部模型的关键输入数据进行监控;对衡量市场风险的关键数据如日交易量、交易限额、波动性等关键数据的持续监控;对衡量操作风险关键事件发生、损失及影响等关键数据的持续监控。二是对直接来源于客户的数据需要重点监控,对直接来源前台交易的数据需要重点监控。三是洁净数据持续性,避免重新弄脏。四是强化数据质量问责。明晰责任是确保数据质量的关键,必须强化数据责任人问责。