1.1 数据源:从线上化、信息化到智能化的变迁
1.1.1 数据源线上化,开启数据新征程
基于2G网络技术的门户网站的兴起,使线上阅览新闻、发表言论逐渐成为公众的日常习惯,可以说,该技术在全社会的普及开启了数据线上化的新征程。1994年,NCFC工程通过美国Sprint公司连入因特网的64K国际专线开通,实现了中国与因特网的首次全功能连接,标志着我国互联网时代全面开启。同年,中国科学院高能物理研究所设立了国内第一个WEB服务器,推出了中国第一套网页。1995年,随着新的通信技术成熟,国内也正式进入了2G通信时代。从应用场景角度来看,2G网络技术不支持直接传送,需通过电子邮件等传送信息,而最早的文字简讯也由此开始。2G具备高度的保密性,系统的容量也在增加,从这一代开始,手机也可以上网了,不过人们只能浏览一些文本信息。第一款支持WAP的手机是诺基亚7110,它的出现标志着手机上网时代的开始,而那个时代GSM的网速仅有9.6Kbps。
尽管在2G时代,浏览内容和速度都有限,但是互联网跨越了地理的限制,为信息在全球范围内自由流动提供了新媒介,也因此带来了互联网用户与终端设备的迅速扩张。根据CNNIC的调查报告显示,1997年到2003年间,中国上网计算机总数从29.9万台上升到3089万台,互联网用户也从62万人迅速增加到7950万人。同时期通信技术的升级,逐渐改变了所有人的上网方式,在1997年,75%的用户使用拨号上网,网速慢、费用高是当时网民面对的普遍问题,到了2003年,尽管拨号上网仍属主流(50%用户),但宽带网络已进入市场,并开始获得越来越多的用户青睐(18%用户)。同时,根据CNNIC的2003年用户调研显示,用户上网的地点在同一时期也逐渐转向家中,越来越多的家庭接入互联网,用户逐渐开始使用个人时间进行网上活动,这为后期针对C端的个人服务(比如网购)的兴起奠定了重要的基础。
随着2G技术的发展,金融行业也逐步投入互联网的浪潮。在1990年,我国银行业已实现了省市级主机在区域、城市和不同银行之间的联网,使得异地、跨行通兑更为便捷。在1993年,自动柜员机(ATM)开始被广泛应用于各个分支银行网点,同时以电子信息转账形式作为货币流通媒介的“金卡工程”也开始实施。1997年,金卡工程首批12个试点省、市全部实现了同城跨行ATM/POS联网运行和信用卡业务联营。1999年9月1日,工商银行“9991 工程”启动,成为我国“数据大集中”的里程碑工程。2000年中国银行业全部开始实施“数据大集中”。所谓“数据大集中”就是把各个银行省级数据中心的业务数据集中到国家级单一数据中心,实现数据、应用和信息系统基础架构的集中,使总行能够实时记录并真实掌握每一个账户的每一笔交易行为。由此,国内银行业业务支持、风险控制、基础设施建设维护和业务创新的能力跨上了更高的台阶。在“十一五”规划接近尾声时,各大商业银行、全国性股份制银行基本完成了包括核心交易系统在内的各业务系统的集中。
互联网化对券商的影响也相当巨大。1990年12月,上海证券交易所成立,1991年7月,深圳证券交易所成立。两大交易所成立后,我国股票交易进入场内集合竞价、集中交易阶段。由于上海证券交易所与深圳证券交易所在各个主要经济体的证券交易所中设立时间较晚,得以在成立之初就借鉴国际证券交易所的先进经验。如交易指令通过计算机自动输入、交易所系统自动撮合成交等先进的交易模式从一开始就得到了应用。证券公司通过统一的电子系统从事经纪业务,客户在证券公司营业部下单,相关交易指令可通过证券公司的系统传递到交易所,完成交易。由于存在远程交易的需求,且互联网技术和互联网应用在20世纪90年代中后期得到了飞速发展,在此背景下,证券公司开始尝试通过互联网远程下单交易。我国最早的证券公司网上交易下单系统出现于1997年,中国华融信托和闽发证券首先开通了网上证券交易业务。此后,又有部分券商开通了网上证券委托(图1-1)。
保险业作为最早“触网”的行业之一,早在1997年即推出了我国第一家保险网站——中国保险信息网(www.china-insurance.com)。开网当天,新华人寿保险股份有限公司通过电子邮件的方式接收投保邮件并进行承保,北京一位高校医生顺利完成了我国第一张在线投保的保单。1998年,中国保险信息网(现中国保险网)已承建了中国太平洋、泰康人寿、中宏人寿、新华人寿、天安、华泰财产、华安财产等多家国内保险公司的网站,开启了保险机构建立门户网站的风潮。
图1-1 2G时代金融行业加入互联网浪潮的历程
资料来源:众安金融科技研究院整理
在2G网络时代,金融企业信息逐步实现了电子化、线上化,但因建设成本、用户基数等因素制约,社会普及度依然有限,随着3G、4G网络技术的发展,各行各业产生、存储及可分析的数据越来越多,进一步推进了信息化、智能化的发展进程。
1.1.2 数据源信息化,拓展数据新内涵
相对于世界其他主要经济体,我国3G网络的建设起步相对较晚。我国工业与信息化部于2008年年底首次发布了3G牌照,截至2012年年底,我国3G基站总数达到104.1万个,同比增长27.9%。国家在“十一五”规划中明确提出了“信息化带动工业化”的战略目标,在此指引下,中国企业的信息化建设步入了全新的发展阶段。而在此背景下推动3G网络的商业化进程,成为3G网络助力“信息化带动工业化”的重要使命。
与2G时代不同,在3G网络时代,由于移动网络带宽的成倍提高,基于移动网络技术的金融应用场景有了更大的想象空间,基于结构化数据的应用范围更加广泛,商业智能成为各行各业急于打造的战略高地,同时,大数据也逐渐发展成为商业社会争先追捧的新兴技术,基于大数据的人工智能算法也在这个时代成为媒体追逐的热点。与2G网络技术相比,在3G网络技术支撑下,数据产生与沉淀、运算与分析以及应用场景等方面均呈现出不同的特征。就数据获取方式而言,市场需求促进了互联网企业如同雨后春笋般兴起,覆盖了如网络购物、共享出行、餐饮外卖、房屋租赁等社会服务的各个领域,在各个细分领域中构建了沉淀结构化数据的基础。在3G时代,数据特征的变革不仅仅体现在量级的增长,在数据维度方面,3G技术能够在全球范围内更好地实现无线漫游,并处理图像、音乐、视频流等多种媒体形式,提供包括网页浏览、电话会议、电子商务等多种信息服务;在数据算法方面,人工智能算法商用的可能性越发明显。深度学习开始带动人工智能的跨越式发展,并在语音识别、图像识别等领域取得突破,而海量的数据和高效的算力支撑是深度学习算法实现的基础,3G技术的发展使得数据源更加多样和丰富,从而支持深度学习的推进,带动人工智能的快速发展;在应用场景方面,由于数据多维度、高密度以及高频率的积累,使得多个应用场景能采用更精细的营销策略。例如LBS(Location Based Service)即基于移动位置的服务,它是借助移动互联网获取移动终端用户的位置信息,在GIS[1]平台支持下为用户提供的一种增值业务。LBS为用户信息增加了新的标记维度,通过时间序列、行为轨迹和地理位置的信息标记组合,帮助用户与外部世界创建更加广泛和密切的联系。但是,在3G时代,人工智能技术更多用于细分领域的试点,仍未在全领域广泛实现商业应用。
4G技术的发展推动了互联网金融的发展。传统商业银行虽然累积了大量的数据,但还需要较强的场景数据的积累以及数据分析及处理能力。4G网络技术的发展为移动互联网的兴起提供了强有力的支撑,各类基于移动互联网的场景应用纷纷崛起,为互联网金融构建场景应用、场景生态提供助力,也为传统商业银行如何实施场景营销带来了新的商业灵感。
随着互联网的广泛普及,电子商务得到了飞速发展,网购行为逐步被培育起来。对于保险业而言,真正的发展拐点在于《电子签名法》的正式实施,其为保险的线上化发展打下了基础。在网络交易中,人们通过计算机网络以数据电文的方式传递交易信息,并采用电子数据“签名”技术作为保证网上交易安全的重要手段。为了规范电子签名行为、确立电子签名规则以及保证电子签名的法律效力,我国于2005年颁布了《中华人民共和国电子签名法》(简称《电子签名法》,后同),明确电子签名与传统手写签名和盖章具有同等的法律效力,让参与网络交易的各方合法权益能够得到充分保护。就具体保险业务而言,在核保、出单、理赔和保全等过程中都离不开投保人签名。此前,在电子签名技术尚不成熟、法律尚不认可的情况下,网络保险只能在线上提交投保单,随后进行线下核保、支付及出单,以此完成整个投保流程。但如果在网络保险业务流程中可以启用电子签名,保险公司就可以为投保人提供并发放电子化的保险合同,从而实现业务流程的线上化。2005年4月1日,在《电子签名法》正式实施的当天,我国第一张电子保单也应运而生,客户在线选购产品、支付保费后,系统自动制作合同,用户签名后向系统用户发放电子保单。事实上,《电子签名法》的正式实施,解决了保险电子保单中电子签名的法律效力问题,进一步推动了保险业务的在线化。
1.1.3 数据源智能化,引领数据新方向
金融行业拥有敏锐的时代嗅觉,每一次与新技术的融合,都带来了成本的大幅下降和流程便捷性的大幅提升。经历了线上化时代、信息化时代,金融业从线下走到线上,并迅速拥抱移动互联网,服务体验在迭代中快速改善。但难以获得丰富、实时的用于风险评估、产品定价的数据,始终是困扰全球金融业的难题。
在智能时代,以5G、大数据、人工智能、区块链、云计算为代表的新技术,为解决此类难题创造了新的可能。“数据智能”是百度公司在2014年提出的概念,百度对数据智能的定义,指基于大数据引擎,通过大规模机器学习和深度学习等技术,对海量数据进行处理、分析和挖掘,提取数据中所包含的有价值的信息和知识,使数据具有“智能”,并通过建立模型寻求现有问题的解决方案以及实现预测等。2018年10月,第五届中国国际大数据大会上发布《2018年数据智能生态报告》提出,在机器学习、分布式计算等技术发展的基础上,数据逐渐呈现出高维度、高阶态、异构性的形式。该报告把能够对海量数据进行分析、处理和挖掘,并且通过建模、工程等方式来解决实际预测问题,最终实现决策的行动称为数据智能。
数据智能是一个跨学科的研究领域,是推动数字化转型不可或缺的关键技术。它结合大规模数据处理、数据挖掘、机器学习、人机交互、可视化等多种技术,从数据中提炼、发掘、获取有揭示性和可操作性的信息,从而为人们基于数据制定决策或执行任务提供有效的智能支持。如果将数据视为一种新的“石油”,那么数据智能就是“炼油厂”。数据智能通过分析数据获得价值,将原始数据加工为信息和知识,进而转化为决策或行动。近年来数据智能的重要性越发凸显并取得了快速发展。数据智能技术赋予我们探求数据空间中未知部分的能力,在不同领域里孕育出巨大的机会。众多基于互联网的新型业务,包括搜索引擎、电子商务以及社交媒体应用等,就建立和运作在数据智能的基础之上。
大数据为数据智能化提供了基础资源。为了支持数据智能化所需的大规模数据处理与分析任务,全新的数据存储系统需要能够容纳和支持高效数据吞吐,并具备高可伸缩性和高容错性。传统的数据库面向交易型需求而设计,无法满足大数据统计分析类的查询需求和应用,大数据系统则更加强调读写效率、数据容量以及系统的可扩展性。具体来说,将数据分割成块,并将每块复制多份后分散到不同的物理机器上存储,用冗余的数据块来防止因个别机器损坏对数据完整性造成的影响。数据的冗余保存不但提高了系统的可靠性,同时也可以提高系统在数据读取时的性能。另外,为降低成本,现代的大数据系统运行在价格相对低廉的普通服务器上,这些机器通过高速网络连接,实现高效的数据传输。此外,基于流(streaming)的计算模型的开发有力支持了不断更新变化的大数据应用。流计算模型每触发一个数据事件就进行一次处理,以确保实时更新。2018年10月底,IBM宣布以高达340亿美元的价格收购开源解决方案供应商Red Hat,成为全球领先的混合云提供商,而亚马逊、微软、阿里巴巴等云计算巨头早已将计算、存储、网络资源和应用软件(大多来自开源社区)作为在线云服务来提供。Anaconda产品和营销高级副总裁Mathew Lodge指出,大数据的中心已经从Hadoop[2]转移到了云端,在云环境下的对象存储系统(如亚马逊S3、微软Azure Blob Storage和谷歌Cloud Storage)中存储数据比在HDFS[3]中便宜了5倍。
人工智能助力掘金数据资产,进一步探索数据智能化。大数据为数据智能化发展提供了基础资源,当前业界最为普遍的算法理念就是基于大数据的:通过计算找寻大数据中的规律,对具体场景问题进行预测和判断。想要训练出成功的人工智能算法,需要强大的算力和大量的数据,其中最重要的就是数据量要足够大。除了数据量足够大,大数据还需要经过采集、清洗、标注等处理后才能够作为人工智能算法模型的训练输入,但目前在实际应用中,数据流通不畅、数据质量不高和数据安全风险等问题仍然极大地制约着人工智能的发展和应用。大数据与人工智能技术的完美结合有望共同驱动数字经济发展,或将成为新的热点和大趋势。对数据智能的信息化落地,业界一般称之为数据智能平台或数据中台。阿里巴巴数据中台战略在2015年首次提出,旨在对内提供数据基础建设和统一的数据服务,对外提供服务商家的统一化数据产品。阿里巴巴数据中台基于OneData体系建立的集团数据公共层,从设计、开发、部署和使用上保障了数据口径的规范和统一,实现数据资产全链路管理,并提供标准数据输出。基于阿里巴巴数据中台输出的“生意参谋”,是阿里巴巴首个统一的商家数据产品平台,为中小企业和商家提供数据披露、分析、诊断、建议、优化、预测等多项数据服务。另外,百度公司的百度数智平台也提供大规模机器学习、深度学习、数据分析及展现、数据应用等产品与服务,包括了大数据基础产品和大数据应用产品两大类,大数据基础产品包括大数据传输产品Minos、数据工厂产品Pingo、数据治理产品Dayu、数据分析与开发产品Jarvis、大数据可视化产品Habo等,大数据应用产品包括百度智客、百度觅客、百度汇客、百度客情、百度商情等,百度公司将其数智平台定位为人工智能时代的企业数据管家,服务公司内部和各行业合作伙伴。可以看出,以上代表性企业建设数据智能平台或数据中台的意义主要在于:一是帮助企业管理好内部现有的数据资产,即数据资产管理;二是为企业提供基于大数据的预测分析产品,即人工智能服务。数据资产管理的目的是准备和提供高质量的数据给人工智能应用,对数据的规范化和标准化是企业实现基于大数据提供智能化服务的关键,也是决定大数据价值实现的基础。
随着大数据的应用进入下半场,人工智能已然在各个领域逐步实现商业化,现有的大数据技术亟须和人工智能技术结合,孕育新的数据智能化产业生态,从百度、阿里巴巴和中国联通等企业的做法可以看出,向数据智能型企业转型正在成为大型科技企业新的行动方向,阿里巴巴提出的“大中台、小前台”的做法已经成为业界主流的数字化转型思路,企业通过建设数据智能平台或数据中台,打破内部数据壁垒、盘活数据资产、提升数据价值,对外提供统一的智能化数据服务,有望再次重构大数据产业生态环境,进一步深挖和释放大数据的价值红利。
数据智能技术正在重塑传统的商业分析和商业智能领域。根据Gartner的调研,一种新的“增强分析”的分析模式正在颠覆旧有方式,预计在几年内将成为商业智能系统采购的主导驱动力。这种“增强分析”模式正是由数据智能技术赋能,提供了自然语言查询和叙述、增强的数据准备、自动的高级分析、基于可视化的数据探索等多种核心能力。依靠金融科技的驱动,科技可以拓展金融服务的边界,为普罗大众提供更好的金融服务、满足更加细微的金融需求。2017年7月,国务院印发《新一代人工智能发展规划》,将智能金融上升到国家战略高度,明确提出将建立金融大数据系统,提升金融多媒体数据处理与理解能力,明确创新智能金融产品和服务,发展金融新业态,并鼓励金融行业应用智能客服、智能监控等技术和装备,同时,提出建立金融风险智能预警与防控系统。对整个金融行业而言,风险经营是行业的核心竞争力,结合大数据分析以及央行征信数据,已经被证实可以有效提升风险区分度。当然,不仅是信贷业务,智能金融带来的变化辐射金融全业务,对理财、资产管理等领域也将产生深远影响。未来的理财产品,不需要再为“某些”客户提前设计,而是针对“某个”客户实时设计,实现产品服务的个性化。
全面数字化时代,“数据、标准、技术和场景”是数据中心智能化运维体系建设的核心要素,金融机构可以依托服务流程体系和IT连续性体系,利用大数据、人工智能等新技术,实现数据的集中管控,构建以监、管、控、防四大平台为支撑的新一代“服务化、数字化、平台化”运维服务体系。数据智能研究契合当今大数据时代各领域、各行业从数据中挖掘、实现价值,进行数字化转型的迫切需要,在近年来得到了充分重视,发展迅速。随着数据智能在更多领域的落地和发展,新的应用和场景、新的问题和挑战将进一步激发和驱动数据智能研究保持强劲的发展势头,迈向更高的层次。展望未来,数据智能技术将朝着更自动、更智能、更可靠、更普适、更高效的方向继续发展。