第一节 税收大数据与税收大数据治理
一、税收大数据的基本理念
(一)税收大数据的内涵
大数据在税收领域的应用催生了税收大数据这一先进理念。税收大数据是指运用互联网信息新技术,对结构混杂、类型众多的海量、巨量涉税信息数据进行获取、存储、挖掘、分析和利用的系统集合及相关的大数据技术。税收大数据是基于互联网新技术及云计算的新处理模式才具有高增长率、多样化的涉税海量信息数据资产,是针对总局、省局、市局等不同税收管理层面、不同税收总体的涉税海量信息数据资产,而非通过随机抽样获得的部分的小规模的涉税信息数据。
例如,某省税务机关为了优化营商环境开展优化纳税服务工作,则该省范围内所有纳税人缴费人的涉税信息数据就形成了税收大数据;又如,为了加强房地产行业的税收风险防控,全国房地产行业所有纳税人缴费人的涉税信息数据就是房地产行业的税收大数据。当然,一个纳税人缴费人也可以作为一个税收统计总体形成税收大数据,如中国海洋石油总公司的纳税申报数据、财报信息数据、发票数据、上市公司公告信息、企业门户网站涉税信息,以及与中华人民共和国发展和改革委员会(简称发改委)、中国证券监督管理委员会(简称证监会)、银行、中华人民共和国国家统计局(简称统计局)等部门共享的中国海洋石油总公司相关的涉税信息数据就形成了该公司的税收大数据。
(二)税收大数据的特征
税收大数据与传统意义上的税收数据不同的基本特征是“大”,不仅仅在于税收大的数据体量规模、算力“大”,也在于税收大数据的获取、共享、储存、分析、挖掘等方面的功能之“大”,还在于税收大数据在税收征管全过程各个方面、各个环节的应用范围之“大”,更在于税收大数据增值利用后的税务公共服务价值空间之“大”。
早在2001年,高德纳(Gartner)公司的分析员道格·莱尼提出过,大数据具有量大、增长速度快和类型多样化的特点;IBM在此基础上提出了大数据“5V”的特征,即Volume,Variety,Velocity,Veracity,Value,结合笔者的理解,税收大数据可以概括为以下相应具体特征:
(1)Volume:意为税收大数据的体量规模巨大、混杂,堪称海量或巨量数据,同时也指对税收大数据的获取、存储和处理计算的算量、算力非常巨大。大数据的起始计量单位至少是P(1000个T)到E(100万个T)或Z(10亿个T)。
(2)Variety:意为税收大数据的来源和类型的多样化。一是来源多样化,包括税纳税人端、税务端,线上、线下等不同渠道,互联网、云计算、移动互联网、车联网、手机App、平板电脑、PC以及遍布各个角落的各种各样的传感器和智能设备,无一不是税收大数据来源的渠道和方式。二是类型多样性,包括各类原始的、非结构化、半结构化和结构化数据,表现为税务登记、各类纳税缴费申报数据、涉税交易数据、发票系统数据、政府门户网站涉税信息、报刊、社交媒体论坛、电子邮件、音频、视频、图片、地理位置、GPS定位信息等各种涉税信息数据。税收大数据的来源和类型的多样性对分析处理技术提出了更高的要求。
(3)Velocity:意为税收大数据增长和处理的速度快,这是税收大数据的显著特征之一。一是数据增长快,随着时间推移、新一代信息技术进步,数据的体量规模呈爆发式几何级数快速增长。二是数据处理的速度快,大数据的批处理和流处理技术应运而生。例如,国家税务总局依托阿里云打造的智慧税务大数据平台,采用分布式海量计算技术,使计算速度提高了2000倍,可实现30多个省级机关核心税收大数据的当日汇总和计算;增值税发票快速预警风险管理系统,是税务机关通过先进的税收大数据技术手段,运用现有数据资源实现自动比对、挖掘、识别的系统,该系统由8大功能模块、“24+”个预警子模块、“425+”个预警指标及预警参数组成,对核票、开票及受票数据异常情况,按天进行预警监控,对申报异常按月进行自动预警监控,能快速发现发票虚开行为,快速响应开展风险应对控制,实现了对虚开发票顽疾的有效打击和震慑。
(4)Veracity:意为税收大数据的真实性、精准性。精准性是数据的质量保证和生命。税收大数据本身是混杂的、非精准的,但通过税收大数据技术的有效运用,对混杂的、非精准的各种类型数据逐步过滤、清洗、处理、筛查、提纯、挖掘、分析、利用,可以实现税收数据从非精准逐步过渡到较为精准直至相对精准的过程。特别是“区块链+税务”技术的开发运用,使税收大数据具有更高的真实性、精准性和可靠性,进而实现税收大数据的安全性和征纳信息的有效对称。例如,目前税务系统和腾讯、方欣科技联合开发的区块链电子发票平台,已广泛应用于金融、房地产、零售、餐饮、交通、医疗、互联网服务等100多个行业。区块链电子发票是“交易即开票,开票即报销”,全程根据真实涉税交易订单或支付行为开具电子发票。区块链电子发票能连接每一个发票关系人,与发票使用逻辑吻合,使发票信息全场景流通成为现实,具有发票信息不可篡改等特征;发票申领、开具、交付全流程完整可追溯,可以追溯发票交易的来源、真伪和报销等涉税大数据,能够有效解决发票流转过程中一票多报、虚报虚抵、真假难验等难题,从而有效规避假发票和虚开发票的行为,使涉税信息数据的精准性和安全性有效提升。
(5)Value:税收大数据的价值特征可以从两方面理解。一方面,数据价值密度低,价值密度的高低通常与数据体量的大小成反比。随着互联网、物联网新一代信息技术的广泛应用,信息感知无处不在,数据体量越大其价值密度相对越低;浪里淘沙却又弥足珍贵,经过提纯后的税收大数据的体量不是越大越好,而是越精越好。所以,如何结合税收业务逻辑关系,通过强大的机器学习算法充分挖掘税收大数据价值,更快速地完成数据价值“提纯”,是目前税收大数据应用亟待解决的难题。另一方面,税收大数据的最终意义是数据增值后的价值大。通过税收大数据集成、共享、机器学习、数据挖掘分析等人工智能技术的应用,最终形成的税收大数据资产、税务知识管理能力及智力、智慧资源。将税收大数据分析挖掘出有价值的信息数据资产,再将有价值的信息数据资产转化为税务知识管理能力,以税务知识管理能力提升更高的洞察力和决策力,从而获取更大的征纳共赢的税收价值,实现税收管理的提质增效,有效提升税收治理能力和治理效能。
(三)税收大数据技术
税收大数据技术是指对海量、巨量的涉税信息数据快速获取、存储、处理、分析、挖掘的现代信息技术。目前所说的“税收大数据”不仅指数据本身的规模体量,同时包含税收大数据获取、存储、挖掘、分析及可视化应用的现代信息技术手段。税收大数据应用的目的是有效推进大数据技术应用到税收征管领域,通过涉税海量数据的获取、处理、分析挖掘和利用促进其突破性发展,更有力地推动税收征管数字化转型及智慧税务建设。因此,税收大数据给广大税务人员带来的挑战不仅体现在如何获取、处理、分析应用涉税海量数据,从中获取有价值的税收信息资源,也体现在如何有效推进税收大数据技术的研发及推广应用。税收大数据技术主要包括以下几种。
1.数据获取技术
数据获取技术包括ETL工具、网络爬虫技术等。ETL是Extract-Transform-Load的缩写,是将数据从来源端口,经过抽取(extract)、转换(transform)、加载(load)至目的端的工具,负责将分布的、异构数据源中的数据,如关系数据、平面数据文件等抽取到临时中间层后再进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。例如,金税系统的决策一包到决策二包,就需要运用数据抽取转换技术集成后,再开展进一步挖掘、分析和利用,有效完成决策支持系统的各项功能。
2.数据存储技术
数据存储技术包括结构化数据存储技术、半结构化数据存储技术和非结构化数据存储技术。目前,税务系统积极拓展开发应用区块链技术基础架构、云存储、分布式文件存储等技术,为有效推进智慧税务建设奠定坚实的数据基础。
3.数据处理技术
数据处理技术是在进行数据分析前,对获取的原始数据进行的诸如清洗、填补、平滑、合并、规格化、一致性检验等一系列操作技术,目的是提高税收大数据质量,为后期的数据挖掘分析奠定良好基础。数据处理主要包括四个部分,分别是数据清理、数据集成、数据转换、数据规约。
4.数据统计分析技术
数据统计分析技术主要包括假设检验、显著性检验、差异分析、相关分析、T检验、均值与方差分析、离散度分析、回归分析、简单回归分析、多元回归分析、回归预测与残差分析、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、聚类分析、判别分析、对应分析、bootstrap技术、实时分析、图片识别、语音识别等统计分析技术。
5.数据分析挖掘技术
数据分析挖掘技术主要包括分类(classification)、聚类(clustering)、估算(estimation)、预测(prediction)、相关性分析、回归分析或关联规则(Affinity grouping or association rules)、描述分析和数据可视化(Description and visualization)、复杂数据类型挖掘(Web挖掘、图形图像、视频、音频处理)、人工神经网络模型与智能化、预测分析模型技术、估算分析模型技术、机器学习、仿真建模技术等。
6.数据可视化展现技术
数据可视化展现技术是对税收大数据挖掘分析结果通过图像、图表、动画等方式的呈现技术,是了解复杂数据、开展数据深入分析不可或缺的技术手段和方法。数据可视化技术能够迅速、有效地简化与提炼税收数据流,更直观地呈现税收大数据的特点、趋势和规律,通过交互式视觉表现方式帮助税务人员探索和理解复杂的涉税数据,有助于更快、更好地从复杂数据中得到分析结论及更新的洞见,就如同看图说话一样简单明了,更容易被税收管理人员所接受。
数据可视化主要有图表展示、文字展示图像动画展示等不同方式。其中图表展示方式应用更加广泛,包括散点图、折线图、柱状图、地图、饼图、雷达图、K线图、箱线图、热力图、关系图、矩形树图、平行坐标图、桑基图、漏斗图、仪表盘等。例如,2020年以来受新冠肺炎疫情的冲击影响,某省的出口销售额有所下降,但是在国际国内双循环相互促进的新发展战略的助力下,出口产品内销的市场份额和销售额实现了持续平稳增长,如图1-1所示。
图1-1 某省2020年1月—6月出口产品内销情况
二、税收大数据思维
大数据时代的发展将带来深刻的思维方式转变,不仅将改变每个人的日常生活和工作方式,改变商业组织和社会组织的运行方式,而且将从根本上改变和奠定国家和社会治理的基础,改变长期以来国家与社会诸多领域存在的“不可治理”状况,使得国家和社会治理更加透明、更加公平、更加有效和智慧。因此,大数据时代,税收管理人员应该转变传统的思维,建立先进的税收大数据思维。
(一)由传统的经验管理思维向税收大数据思维转变
传统的税收管理更多的是基于管理人员的税收管理经验判断和决策。大数据时代的税收管理人员应该首先转变这一思维,适应互联网大数据时代的发展向税收大数据思维转变。因此,要抓住征管数字化转型及税收大数据发展的机遇,努力培养和建立税收大数据思维,实现税收征管理念与方式方法的根本性转变;一切税收现象和业务皆可数据化,要充分认识税收大数据的重要性,学会用税收数据说话,用税收数据的分析和应用指导税收实践,学习和掌握税收大数据的相关技术和应用方法,拓宽税收大数据获取渠道,充分获取税收大数据资源,建立科学的税收大数据分析指标体系,深入开展税收数据挖掘分析,提升税收大数据的量化分析能力和数据驾驭能力,通过税收大数据思维的运用推进税收决策的科学化、专业化和精准化,为税制改革、完善政策、优化纳税服务、加强税收风险管理提出科学有效的建议和措施,促使我国的税收制度、征管体制及征管程序更加科学完善,全面实现税收治理体系和治理能力的现代化。
(二)从税收样本思维向税收总体思维转变
由于数据处理技术受限,传统的税收数据分析主要依靠统计学的抽样技术方法,分析税收现象的特征和规律。大数据时代,数据处理技术发生了革命性的变革,为税收大数据的获取、处理、分析、应用提供了信息技术保障,因此,大数据时代开启了总体全数据模式,即“样本=总体”。因此,税收大数据思维需要做出相应的调整,要树立总体税收大数据思维。税收总体数据不是指数据的数量而是指数据的范围,即税收大数据的总体不限于目标总体数据,还包括目标总体以外的所有与之相关联的涉税数据。因此,应尽力拓宽税收大数据获取、共享的渠道范围,获得更多的甚至是所有相关的涉税数据,更清晰地发现样本无法揭示的信息,从而获得对税收现象更全面、系统的认识。
但是,具体问题应具体分析,并不是在所有情况下都需要总体的全部数据,在某种特殊情况下,对于某项税收业务的分析判断是不需要获取总体全部涉税数据的。所以,大数据分析不能完全排除随机抽样、重点调查等方式方法,只是随机抽样、重点调查的方式、方法和范围要加以拓展和延伸,具有代表性的一部分纳税人缴费人的样本数据也可以延伸关联形成税收大数据,运用数理统计方法进行综合推断分析,从而形成对总体税收现象有力的补充和充分验证。
税收大数据相对于样本小数据,其分析应用的优势在于两点。一是可以提高税收数据的精准性。总体的税收数据量大,经过清洗过滤、系统集成、有效挖掘分析,可以得出规律性的有价值的相对精准的数据,进而有效提升税收大数据的精准性。二是可以提高税收数据的实效性。通过对总体税收大数据进行比对、挖掘分析,可以在第一时间获取异常的数据信息,及时发现纳税服务和税收征管中存在的问题,进而有针对性地改进完善纳税服务和税收征管工作。例如,某省为了加强房地产行业的征收管理,尽力获取某省房地产行业所有的税收大数据,包括来自税务机关内部纳税缴费登记、申报、财务信息、涉税备案、增值税发票等涉税数据,还包括来自互联网、自然资源国土、住建、银行等部门的涉税数据。通过对某省房地产行业所有税收大数据的有效获取、系统集成和综合分析利用,加强对房地产行业的专业化纳税服务和税收风险管控。
(三)从数据容错思维向数据精确思维转变
税收大数据本身就是混杂的、多样化的、非精准的。大数据思维下,数据本身是混杂的、非精准的,更多的分析应用首先是基于宏观视野的宏观分析和哲学思维,是通过大数据分析获得规律性洞见和知识用以支持管理决策,而不是分析即决策;大数据分析的思路和方法没有绝对精准,只有相对精准,没有标准答案,只有参考答案。所以,对于税收大数据,我们通常是用概率或阈值区间说话,当数据规模不断扩大的时候,也要同时接受大数据的混杂性和非精准性。
税收大数据不仅包括来自税务端、纳税人端的税费登记、纳税缴费申报、发票数据、财务信息等结构化数据,还包含来自互联网网页、门户网站、搜索引擎索引、社交媒体论坛、电子邮件微信信息、文本文档等原始的、半结构化和非结构化数据。税收大数据的混杂性和非精准性表现在两点:一是数据来源的渠道广泛,且没有经过数据审核,所以无法保证每条数据的精确性;二是半结构化、非结构化数据的出现,无法预先设定记录结构,不要求数据的分类和整齐排列。在税收大数据思维下,越是混杂的数据越具有挖掘、分析利用的潜力和价值。因此,需要通过云计算及新技术处理模式对结构混杂、类型众多的海量、巨量涉税数据进行获取、存储、挖掘和分析利用,才能逐步清洗、过滤、筛查、提炼出有价值的、较为精准的税收数据,实现从非精准逐步过渡到较为精准直至相对精准的过程,特别是“区块链+税务”技术的有效开发运用,将促使税收大数据具有更高的精准性、真实性和可靠性。
(四)从税收数据的因果思维向税收数据的关联性思维转变
维克托·舍恩伯格最具洞见之处在于,大数据时代最大的转变就是放弃对因果关系的渴求,而更加关注事物之间的关联性,即相关关系。在大数据时代,在很多情形下,我们不必知道现象背后的原因,只需让数据自己发声。只需要依据事物之间的相互关联性知道“是什么”,而不需要知道“为什么”。也就是说“传播即数据,数据即关联,关联即本质”。例如,2009年,美国谷歌公司的技术人员通过分析每天来自世界各地超过30亿条搜索指令,准确预测并具体标定了美国大流感疫情及发展趋势,而分析人员并不需要了解流感的成因;2012年,美国Farecast公司记录了近十万亿条美国国内航班票价数据,用以预测机票价格走势,其预测准确度高达75%,而系统并不需要分析航空公司的定价依据。
借助对税收现象相互关联的相关关系的分析,税收大数据分析系统能够快速探测出正在发生什么,揭示单凭税收管理经验假设和案头分析难以发现的税收业务之间的关联关系规则。通过税收大数据的关联性分析,可以将两种看似毫无关系的涉税现象有机关联起来,虽然其原因可能无法解释,但是其结果往往却可以准确指向。例如,从住建部门获知某房地产企业已经取得了房屋预售许可证三个月,但企业没有任何税款预缴的申报记录,则可以推断分析企业可能存在将预收款挂往来账,没有及时确认收入预缴相应税款的税收风险点。
大数据时代思维方式的变革,颠覆了千百年来人类的思维惯例,对人类的认知及与世界交流的方式提出了全新的挑战。小数据时代人们只关心因果关系分析,对相关关系认识不足。大数据时代关联性的相关分析举足轻重,如何强调都不过分,但不应该完全排斥因果关系。大数据从何而来?为何而用?如果我们完全忽略因果关系,不知道大数据产生的前因后果,也就失去了大数据分析的完美性,更失去了其人文价值。
三、税收大数据治理
(一)税收大数据治理的内涵
税收大数据治理又称“以数治税”,是现代税收治理体系中重要的组成部分,是在互联网、大数据、云计算及人工智能等现代信息技术应用的背景下,建立和完善税收大数据应用的相关法律制度与政策,对税收大数据的获取、存储、处理分析等智能化应用制订科学统一的规划、方案,促进税收征管与税收大数据技术的深度融合应用,即税收征管数字化、数字化税收征管,通过综合一体化的税收大数据智能化应用平台,全方位系统集成各类内外部税收大数据,实现对税收大数据的增值利用,不断提升税收管理流程的优化能力及知识管理能力,有效降低征纳成本,提高税法遵从度,实现精准税务监管,进而提升税收治理能力和治理效能。
(二)税收大数据治理的意义
金税四期工程是税收大数据治理的积极探索和实践,正在以前所未有的方式推动税收征管数字化转型与智慧税务建设。税收大数据治理的意义主要有以下几个方面。
1.有效提升纳税服务的专业化、精细化水平
第一,税收大数据治理可以不断改变和优化税收治理模式,促进纳税服务的主动型、优化式发展。通过对海量的涉税数据获取、分析、应用,可以常态化、动态分析纳税服务中存在的问题,寻求更专业、高效的服务策略,从而简化办税流程,不断优化智能化办税程序,让大数据多跑路,纳税人缴费人少跑路,降低办税成本,为纳税人缴费人提供更加高效便捷的优质高效服务,最终改善服务体验,提高纳税缴费的满意度和遵从度。
第二,税收大数据是分析纳税人缴费人需求、提升精细化纳税服务水平的有效工具。利用税收大数据识别画像,可以在海量的数据分析中精准挖掘纳税人缴费人的动态涉税服务需求,精准判断共性需求和个性化需求,更好地满足普遍服务需求的同时,为纳税人缴费人提供量身定制的更专业的个性化服务,提升专业化、精细化纳税服务水平。
第三,依据大数据技术获取的海量数据,共享于不同的服务平台。建立相应的政策咨询服务平台,根据大数据分析结果了解纳税人缴费人的潜在需求,提供更精准的纳税咨询服务,并提出纳税人缴费人可能享受的税收优惠政策,及时了解自己享受的税收优惠政策及变化或有效期限,使税收优惠政策及时惠及广大纳税人缴费人。
2.有效提升税收风险分析识别的精准性,降低征纳成本,提高智能化税收风险管控能力
第一,运用税收大数据技术可以增强征纳双方的税收风险防控意识,针对潜在的税收风险有效开展分析识别、预警监控,进而差别化、有针对性地开展税收风险防范、控制和排查。
第二,用大数据分析方法精准开展税收风险画像,识别税收遵从风险,事前开展预防性的税收风险提示提醒,有效规避税收遵从风险,降低税收成本,同时防范和规避国家的税收流失风险。
第三,运用税收大数据获取、存储、处理和分析技术,可以有效提升风险分析识别的精准性和针对性。无论是事前预防、事中监控,还是事后风险应对控制,通过有效运用税收大数据技术,税收风险分析识别的精确性都大大提高;在纳税评估、税务审计和税务稽查的风险应对过程中,运用税收大数据风险画像分析技术方法进行全面系统综合分析,可以有效提高风险分析识别的指向性和精准性,进而锁定风险目标,精准实施有效应对,使风险应对的质效大大增强。
第四,互联网、大数据、区块链技术、智能化数据挖掘技术的融合发展应用,可对涉税生产经营全过程的交易和支付、发票开具等数据进行分布式记账、加密存储及智能化综合分析利用,可以有效提升税收大数据的真实性和可靠性,实现征纳信息的精准、有效对称,税收风险精准识别和有效防控,进而提升智能化税收风险管控能力。
3.以税收大数据为驱动力,开发建设“信用+风险”高效联动的、智能化综合评定信息系统,推进更精确税务执法、更精细税费服务、更精准税务监管。
第一,在全面推行实名办税缴费制度基础上,利用税收大数据,可以跨领域、跨行业跟踪、记录纳税人缴费人的投资、生产、分配和消费的经营活动过程及涉税行为,通过汇总整合、分类统计、挑选去噪、深度挖掘等加工处理程序,立体化呈现一个企业的真实图像。结合金税四期及税收大数据平台开发建设、推广应用的有利契机,有效运用“一户式”“一人式”税收大数据及人工智能等现代信息技术,探索开发建设纳税缴费信用等级与税收风险等级有机结合的综合评定信息系统,将两个不同的评定系统集成统一、有机联动互动、智能化综合评定、动态化运行监管,开发建立“信用+风险”高效联动的、智能化综合评定信息系统。
第二,以税收大数据为驱动力,推动建立“信用+风险”联动监管体系,就是要建立税费服务和税务监管有机结合的联动治理体系。即随着税收风险等级的提高,纳税缴费信用等级的降低,税收风险应对控制策略由优化服务提升到风险提醒式辅导服务,由柔性管理提升到监控管理,最后提升到严格的刚性执法,执法的刚性和力度逐级加大,由此建立分级分类、差别化、递进式的服务和监管有机结合的税收治理体系,促进服务、监管、执法的有机结合,促进更精确税务执法、精细税费服务、更精准税务监管,有效降低征纳成本,不断提高税法遵从度和社会满意度。
4.税收大数据治理是“智慧税务”的大脑与核心
金税四期工程及智慧税务大数据服务平台是集区块链、大数据、云计算、人工智能于一体的综合型税收大数据平台。是以发票电子化为突破口,以税收大数据为驱动力,以互联网现代信息化技术为依托,高效地完成内外部异构数据、分散数据的税收大数据的系统集成,以“信用+风险”联动监管为主线,促进税收业务与大数据技术的深度融合,税收征管数字化转型,资源优化配置,高效实现对税收风险以及税务舆情风险的有效防范、预警和监测,从而支撑税务部门高效智能化地智慧决策,有效防控税收风险,弥补征管漏洞,纠正治理偏差,进而有力推进税收征管改革和税收现代化建设。
四、我国税收大数据治理的探索与实践
(一)江苏省税务局税收大数据治理案例—探索发展区块链技术应用
江苏省税务局以大数据思维构建的税收风险防控管理系统,基础数据由政府各部门交换的第三方数据、互联网获取的涉税数据和税收征管数据系统集成。信息管理系统所获取的数据,通过区块链技术的分析应用,对税务部门与纳税人之间的税源信息、土地基本信息及纳税人的个人信息运用密码学技术,使数据高度透明性、不可篡改性及历史可追溯性。将纳税人的纳税信息即时更新并与其信用挂钩,提高税务部门与纳税人之间的互信度,以及信息数据的安全性、可靠性、准确性。
国家税务总局和中华人民共和国国土资源部(简称国土资源部)于2013年5月联合下发通知,在全国开展“以地控税、以税节地”试点工作。税务部门利用国土资源部提供的土地信息促进对土地税源的监管,国土资源部门利用税务部门提供的土地税源信息加强对土地使用的管理。近年来,全国各地税务局积极响应国家税务总局的号召,开展“以地控税、以税节地”试点工作,利用大数据技术构建“信息管理平台”,以信息化为支撑,着重研究对地籍信息、房产信息、税源信息的综合利用,通过从国土资源部门得到的纳税人有关的各类数据,经处理和分析后与“信息管理平台”中的相关数据进行分析、比对,找出存在的风险点并进行实时推送,以便有关部门及时采取应对措施。
江苏省常州税务局按照总局、省局关于开展“以地控税、以税节地”工作的指导意见,利用大数据技术构建“常州市地方税地理信息管理系统”,与国土部门合作,将企业的地籍信息、房产信息通过国土部门的电子化地籍图和地理信息处理技术转化为税务部门所需要的土地税源信息,做到对土地税源信息的及时源头监控。通过“常州市地方税地理信息管理系统”可以直观地展示某一区域中某一纳税人的地理位置、占地面积、权证范围、税额标准等全部税源信息,税务干部可以根据平台展示直接获得企业的房屋、土地等税源信息,针对性开展风险管控。
信息管理系统中的风险模型可自动将关联匹配成功的土地信息和税源信息进行比对,将产生的风险可疑点推送至纳税人自查确认,纳税人自查后仍旧存在疑点并且没有正当理由的确认为税收风险点,纳入风险管理系统。通过国土部门的宗地信息核查,2015年累计增加应税土地税源登记面积2311.69万平方米,增加应税房产原值175.9亿元。2016年1—9月新增应税土地税源登记面积1091.57万平方米,增加应税房产原值210.02亿元;累计补缴城镇土地使用税、滞纳金和罚款14824万元,房产税、滞纳金和罚款9121万元。
常州市税务局联合开发的税收大数据应用“地理信息管税系统”,积极探索应用区块链技术不断优化税收风险管理系统。主要设想的优势有两点:一是可以有效解决税源信息的隐私安全问题。区块链技术中的密码学技术能够有效保障信息安全,防止税源信息的泄露,使分散于多个节点中的数据自身都具有较强的可靠性和独立性;二是可以降低登记税源信息错误率。在区块链技术的分布式账本技术中,每个节点的数据都是独立的,不可随意篡改。应用此技术,可减少单点错误,增强自治性与共识性,防止登记错误引起其他税源信息的差错,提高数据的精准性。
(二)河北省石家庄市税务局税收大数据治理案例—建立税收风险智能化排查系统
1.建立税收风险自动识别系统及税收风险智能化排查系统
税收风险自动识别系统及税收风险智能化排查系统是石家庄市税务局在市政府、市委书记的高度重视和领导下,积极落实关于《深化国税、地税征管体制改革方案》的创新有效尝试及具体落实项目。该项目是以税收风险管理为导向,引入政府部门第三方涉税大数据为基础构建的,按行业全税种关联的税收风险识别项目。该项目的最大亮点是由石家庄市政府下设的综合治税部门牵头,统筹协调运用国资委、发改委、公安、规划、土地、住建等34个部门在内的涉税大数据云平台,联合专业服务商合作开发的税收大数据分析项目,对纳税申报数据、发票购销信息、财务报表信息、第三方涉税信息等税收大数据进行整合、分析、利用,利用关联度高的有效数据,通过表间、元素间、税种间、指标间、文本间的逻辑关系开展纵向、横向的关联比对和分析识别,将现行税收政策中可数据化的政策点进行风险指标模型的系统设置,智能计算应纳税款,与纳税申报数据自动比对,实现风险智能识别、应对任务的智能化推送、自动应对排查,初步实现精准指导,提高了税收风险管理的成效。目前,石家庄市税务局首选税收风险较高的建筑安装行业和房地产开发行业作为开展税收风险识别和应对的试点行业,收集了征管数据2000万条,采集了第三方数据115万条,选派专家甄选、完善了风险指标73个。将相关指标模型和数据嵌入系统后,通过风险应对,对风险疑点进行反馈验证,逐渐优化完善。石家庄全市已经开展了多批次重点行业专项风险应对工作部署,产生了风险企业2934户,风险疑点数据13966条,入库税款上亿元。
2.税收大数据分析应用在增值税发票风险防控方面的成效
(1)应用聚类分析技术打击发票虚开虚抵的团伙作案。优化纳税服务,简化涉税审批后,部分不法分子利用“简政放权”“便民春风”等政策,大量登记新办企业,申领发票虚假开具后迅速注销企业或走逃,形成近期增值税发票犯罪的主要风险特征,造成税收流失的风险后果,严重破坏了正常的税收管理秩序。这类企业具有“快办、快领、快开、快跑”的特点。传统的属地税源管理由于缺乏更大范围的涉税数据平台,面对虚开发票的“游击队”犯罪团伙无从下手、疲于应对,造成了“打不死、赶不走、跑还来”的且打且扩的被动局面。面对这种严峻形势,河北省石家庄市税务局成立了专业的税收风险管理局,自主研发“发票风控”模型系统,全面攻关,深入开发,利用大数据与数据挖掘技术、数据图形学的方法进行研究分析,将登记、申报、征收、发票底账等涉税信息点进行语意解读,利用信息点的互斥性和互证性来排除干扰,强化识别的风险特征,最终开发出包含语意解读、关联分析、聚类分析、专业剪枝、确定分组、业务优选、验证滤杂、锁定目标等风险识别的大数据技术应用方法。该方法具有现实性和预测性兼备的识别研判优点,既可以挖出已经注销、走逃的虚开发票“游击队”的“尸体”,又可以锁定当前正在实施违法犯罪行为的团伙成员,还可发现刚刚登记,领了发票即将虚开的团伙成员。在风险预警防控和应对机制上,采取各个属地税务机关同时出击,协同应对措施,让虚开发票的犯罪团伙无处遁形,有效地打击和遏制了虚开增值税发票犯罪团伙的多点、多轮次的循环作案。
(2)应用图形挖掘技术找出虚开增值税发票的全链条。互联网大数据时代,从宏观视图中可以透视出“虚开、虚抵”增值税发票风险的团伙成员,发现其具有分工专业、跨区协作、网络运作、建网迅速、在线速通、灵活协作、再生力强、扩散迅捷等风险特征。基于互联网时代企业运作的风险特征和当前虚开虚抵发票风险应对存在的主要问题,河北省税务局确定了以税收大数据、数据挖掘、数据图形学等先进技术为主导,以税收风险分析为验证的四步分析法,即“整合数据建主题、构建网络绘整体、识别风险做标识、层层挖掘现谜底”。第一,整合金税系统、防伪税控、发票电子底账、进销项分析、风险协查等系统信息,构建支撑风险管理的主题数据集,主要以税收征管系统和发票管理系统为数据基础,构建纳税人与发票风险的关联关系。第二,依托发票与纳税人主题数据集,以纳税人为“节点”,以购销关系为“边”,运用大数据图形数据库技术,建立涵盖河北省全部企业的商品交易网络全图,称之为“涉税关联网络”。第三,应用大数据的数据挖掘技术,确定八大类、40余种风险商品,再对单户企业的购、销商品按照产品结构关系智能组合,整体比对,识别出了大量“购销不一致”的风险企业,推送至基层管理部门实施风险排查。第四,通过追踪“涉税关联网络”企业的商业轨迹,以风险企业为锚点,以企业运作规律为线索,层层递进,点点剖析,逐个挖出虚开虚抵、骗取出口退税、避税筹划、关联交易等涉税风险交易的网络关系图。同时在风险应对指引上,按图索骥,层层突破,通过环节之间相互印证,实现对风险交易网络的整体打击和震慑。