第二节 税收大数据获取技术与方法
当前税收实践中的税收大数据获取技术与方法主要包括网络爬虫技术,利用政府数据共享平台实现信息交互、共享利用,通过金税系统及智慧税务平台智能化获取、应用税收大数据,税收专项调查与统计报表制度,应用区块链技术等,其中区块链技术的应用在第七章重点阐述。
一、网络爬虫技术税收大数据获取及应用案例
(一)网络爬虫技术原理
网络爬虫技术是现代搜索引擎技术的重要组成部分,通常被称为网页追逐者,又被称为网页蜘蛛、网络机器人。网络爬虫技术是一种按照一定的规则,自动抓取互联网信息的计算机程序或脚本。由于专门用于检索信息的“机器人”程序就像蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦,所以,网络爬虫技术又被形象地称为网络蜘蛛,目前已被广泛应用于互联网搜索引擎或其他网站。搜索引擎使用网络爬虫技术抓取Web网页、文档、图片、音频、视频等信息资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询和应用,是现代意义的搜索引擎技术。百度、谷歌这些“巨型爬虫”目前都是以云计算技术为基础,用成千上万台计算机组成一个巨大的爬虫系统,其原理比较复杂,其中有很多技术难点,但其基本原理都是一样的。
传统的搜索引擎存在一定的局限性,一是效率低,搜索引擎所返回的信息包含大量用户不关心的网页;二是有限的搜索引擎服务器资源与无限的网络数据资源之间存在矛盾;三是不能有效地获取不同数据结构的信息。而网络爬虫技术的应用可以完全不依赖用户干预,实现网络上的自动“爬行”和搜索,可以根据既定的目标更加精准地选择、抓取相关网页信息,有助于在互联网海量的大数据中快捷获取有价值的信息资源。
(二)网络爬虫技术在税收风险管理中的拓展应用
“网络爬虫”是一个自动提取网页信息的程序,运用网络爬虫技术设定程序,可以根据既定的目标更加精准地抓取相关网页,有助于在互联网的海量信息中快捷获取有价值的涉税信息数据。
1.利用网络爬虫技术对税源进行风险监控预警
税收大数据获取技术在税源管理中的应用,最行之有效的方式就是利用网络爬虫技术抓取企业和互联网的涉税信息数据,作为税收征管和纳税服务的大数据资源。网络爬虫技术是一种高效的信息抓取工具,它集成了搜索引擎技术,可以根据一个文本链接自动从超文本标记语言获取指向其他文本链接的地址信息,并自动高效率访问和自动存储抓取。涉税信息存储库将自动抓取的网页信息存取下来,并实现分布式、可扩展的存储爬取的数据,如图2-1所示。
图2-1 网络爬虫涉税信息监控技术原理
股权转让带来的征纳双方信息不对称一直困扰着税务机关,一旦股东将股票抛售,很难第一时间实现有效监控,税收征管存在一定难度。在股权转让方面,由于上市公司发布信息的透明性,可利用网络爬虫技术获取上市公司公告、限售股解禁、上市公司十大股东等涉税信息数据,。根据税收征管工作需要分类抓取、实时监控,并将在互联网上获取的涉税数据信息与金税系统的税收征管信息、其他第三方信息进行自动综合比对,从中筛选出存在税收风险的纳税人,进而实施税收遵从风险提醒或风险预警。
目前的网络爬虫技术还仅仅停留在发现问题阶段,如股东在处置资产后是否进行了纳税申报等。未来的网络爬虫技术应用还将不断向纵深发展:一是从发现问题向大概率预测分析、评估预警税收风险转变。例如,某公司发布公告实施股权激励,那么在数年后则要关注该股权激励的兑现和转让,实施税收风险监控;如果某公司计划重组,引入其他非关联的投资者,那么可以预测该公司的留存收益很可能发生减少等。二是从零散、不成体系的应用向系统集成拓展应用转变,集成的主要内容包括数据源获取、分析模型构建、风险识别、评估预警等。其中,数据源不应仅仅是区域性的上市公司信息,而应是全国资本交易市场的涉税大数据及海外交易市场的涉税大数据;不仅关注资本交易,还可以利用网络爬虫技术勾勒描述出涵盖自然人的资金流图谱,用金税四期系统的数据勾勒描述出涵盖全国的发票流信息图谱,并将两者进行综合对比,从而发现交易实质,精准指向定位税收风险点。此外,为了保证爬虫软件的效率,减少后期数据的清洗和校验工作,可以参照反避税工作所进行的数据采集和对比工作,采取“买数据”的方式,从目前基于网页的“海淘式”获取转变为向专业的数据公司购买清洗后的数据源,从而大大提高“网络爬虫”获取税收大数据的效率。
2.利用网络爬虫技术监控税源信息,有效实施税务稽查
网络爬虫技术强大的功能之所以能在税务稽查中应用,就在于它完全是按照税务稽查所下达的查验方向指令进行自动抓取行动。这些“网络爬虫”可以迅速地按照税务稽查的要求抓取稽查人员需要的涉税大数据及分析结果,锁定税收风险点,制定有针对性的税务稽查策略。那么,网络爬虫技术是怎样抓取涉税申报风险疑点的?利用网络爬虫软件,按照需要抓取的信息,输入几个关键指标值,单击“确定”按钮,电脑屏幕上就会出现一只绿色小虫缓慢地爬过,当发现税收风险疑点时,红色预警信号[1]就会出现在屏幕中,此时,税务人员只要点击爬虫爪,就可以抓取到所有预警信息,风险目标和风险疑点的具体信息也会即刻逐一显现出来。
网络爬虫技术在税务稽查领域的应用主要体现在以下方面:
一是拓展信息渠道,将网络爬虫技术引入涉税大数据的获取,对外部网站披露的与企业资本运作活动有关的信息适时捕捉,丰富案源线索;
二是精准分析定位,将风险分析识别方向定位在股权、投资和土地、房屋等大额资产的处置交易上,分析方法和指标设计针对性强,逐步延伸到其他税收业务领域;
三是融合多方涉税信息数据,引入税务登记、发票、申报、鉴证报告、财务报表、印花税等多方涉税信息作为比对分析的主要着力点,交叉稽核验证确认;
四是强化涉税信息数据的深度分析挖掘应用,着重建立各类信息源之间的对应关联关系和数据钩稽关系,从而支持税收风险分析识别、推定和风险排查;
五是风险信息重构,对多个投资方信息进行整理归纳,形成控制关系的网络架构图,将复杂的资本运作行为重构还原为清晰的交易行为轨迹,以准确定位和发现这些交易中的税收风险点;
六是利用网络爬虫技术原理调用百度、搜狗等知名搜索引擎的接口,获取其他方面的涉税信息,如实际关联公司、经济案件的法院判决结果等;
七是利用“网络爬虫”探索获取外文涉税信息,将境外上市公司纳入风险监控范围,不断拓展税收大数据的获取、分析及应用领域。
3.运用网络爬虫技术获取数据,开展税收风险管理的典型案例
近年来,各地税务机关已经开始尝试使用网络爬虫技术进行第三方涉税大数据的获取、分析和应用,防范和控制税收遵从风险,取得了突出的成效。例如,税务机关在调查某餐饮企业网上销售情况时,利用网络爬虫技术,用计算机代替人工完成相关团购网站的访问调查,定位和获取了电商交易平台上的累计销售数量、销售金额等涉税关键信息,通过语义分析技术对该餐饮企业在一定时期内的电子销售总量、销售额与同期的企业申报数据进行比对分析,进而识别企业可能存在的税收风险点。
天津市税务局构建的税收大数据分析平台紧密结合税务实际业务需求,利用网络爬虫等技术系统集成互联网数据、第三方涉税交易数据、税务端数据。目前,该平台与高等院校合作,借助科技大脑在应用层面取得了突破性成效。一是在宏观层面的获取、分析及应用,包括区域税收经济分析、货物流向经济地图、汉字信息商品分类库语义分析等功能;二是在微观层面的获取、分析及应用,包括企业增值税专用发票查询、普通发票查询、上下游货物流分析、上下游企业分析、一税号多名称分析、发票与申报数据关联比对分析、发票与风险指标关联比对分析、一键生成区域分析报告等税收大数据应用功能。天津市税务局通过应用网络爬虫技术有效掌握了发票总体进出情况、货物间购销、企业间往来、企业历史数据变更等情况。该系统已经在日常税收征管、税收风险监管、税务稽查等领域取得可观的成效。
江苏省税务局大力推进大数据生态圈建设,加强与各级政府机关的信息交换与共享,与省、市、县三级政府的相关部门开展常态化大数据共享交换;采用网络爬虫技术,以每日获取2700多万条数据信息的速度从互联网获取涉税大数据,信息服务从仅仅涵盖征纳双方的小型对接进一步拓展到了税、政、企、校等多方覆盖的大数据生态圈。2015年上半年,原无锡地税局通过网络爬虫技术,获取了12家在港交所上市的无锡企业的涉税大数据,包括涉及股权变动信息,通过数据分析应用,查补股权转让个人所得税1亿元,有力提升了税收征管效能。
福州市税务局成立了税收风险控制中心,以税收大数据为驱动力,深入推进开展税收风险管理。运用网络爬虫技术自主研发了“互联网涉税信息监控平台”,相继开发了上市公司公告信息获取、限售股解禁信息获取和上市公司十大股东信息分析3个软件系统;同时还开发了辅助扫描等程序,建立上市公司股权交易涉税数据库,加强对上市公司股权转让业务的税收风险监控,实现了对上市公司股权交易等信息的实时精准分析监控。“互联网涉税信息监控平台”的运行方式是:第一,操作人员进入系统后,先连接互联网税收风险控制中心电脑,通过“网络爬虫”定向抓取各相关网站公开发布的上市公司公告信息,并且将这些信息转化成可识别的文本。第二,在当天股市收盘后,扫描程序启动,扫描网络爬虫抓取上市公司公告内容。第三,如果扫描中出现了福州市税务局管理的纳税人或其他有效涉税数据信息,监控平台会自动将公告信息与福州市税务局管理的纳税人建立关联比对,并且以不同颜色的字体和高亮方式显示在电脑屏幕上,提示纳税人可能存在税收风险。通过对监控平台抓取的信息与税收征管信息系统进行大数据比对分析,进而找出税收风险等级比较高的纳税人,推送到基层管理局开展有针对性地纳税风险评估,取得了显著成效。2016年,福州市税务局利用网络爬虫技术抓取了企业十大股东变化信息,对涉及企业开展纳税评估,查补税款6399.8万元,调减以前年度亏损71.91万元。2017年前10个月,福州市税务局风控中心对上市公司十大股东及持有上市公司限售股解禁信息进行分析,筛选出124户存在税收风险的企业,涉及减持226只股票,推送至基层管理局开展纳税风险评估,多家企业补缴相应税款。截至目前,该平台已抓取和分类储存上市公司涉税信息257万条。对于“互联网涉税信息监控平台”抓取的信息,福州市税务局风控中心设专人实施风险管控,一旦发现关联企业减持股票涉及税款问题,立即推送至基层管理局与企业沟通核实,提醒、督促企业及时依法申报缴纳税款,防范规避了税收遵从风险。
二、利用政府数据共享平台实现信息交互、共享利用
近年来,全国各地政府部门积极探索制定综合治税的税收保障条例、办法,为构建综合治税体系、获取税收外部数据信息提供了有力的制度保障。自2003年山东省在全国率先以政府令的形式向社会公布了税收保障条例以来,经各地税务机关的积极推动,目前全国范围内江苏、辽宁、江西、青岛等18个省(市)政府陆续出台了税收保障办法,占全国的50%。山东、海南等省级人大讨论通过了地方税收保障条例,提高了综合治税保障条例的法律层级,加快推进了税收外部涉税大数据获取的法制化进程。各级政府部门信息共享作为税收外部涉税大数据获取的重要途径和技术方法之一,在我国税收实践中一直处于非常重要的地位,各地各级税务部门在本地区政府部门主导的数据共享交换平台获取并有效利用了税收大数据资源,为有效推进“以数治税”,深化税收征管数字化转型及智慧税务建设提供了强有力的数据支持和保障。
例如,上海市政府按照国家推进大数据应用的战略要求,积极开展企业基础信息共享试点。一是探索开发建设了企业法人库,在市经信委的牵头下,上海市税务局、市场监督管理局、质监局积极配合,共同建立了“上海企业基础信息共享与应用系统”,企业基础信息“一次输入、多方使用”和企业信息变更的“一局变更、多局联动”,实现了税务局、市场监督管理局、质监局三部门之间企业基础信息的及时交换与共享、利用,确保了企业基础信息的系统完整、准确和一致,充分发挥了企业基础信息共享、利用的作用,为后续区块链技术的应用打下了坚实的基础。二是开发建设了个人住房房产税征收管理系统。市税务局、住建局、规划和国土资源管理局、财政局、公安局、民政局、人力资源社会保障局、统计局等部门共同建立了全市统一的房地产信息管理平台,实现了个人住房信息数据库信息共享。上海税务局与上海市住建、房管部门建立的专线连接,可以实时获取涉税信息,实现了房屋买卖合同网上备案信息、原有住房查询信息、住房产权证发证信息、房产税认定信息等涉税大数据实时共享,交互利用,使不动产交易税收征管的效率大大提高。房管部门可以凭税务机关出具的相关文书,签发土地、耕地转用批文,办理房地产权属登记、变更等有关工作。
三、通过金税系统及智慧税务平台智能化获取、应用税收大数据
金税三期上线后,各地税务机关积极探索税收大数据的拓展应用。以上海税务局为例,在金税三期系统上线后,依托金税三期系统的外部数据交换平台,获取来自市场监督管理局、公积金中心、统计局自然资源、住房城乡建设部门等外部平台的数据,以及企业的股权信息、公积金个人缴存信息、土地登记信息、项目开发建设等涉税信息数据,为税源管理、纳税服务及税收风险管理等提供了有力的数据支持。
发票电子化及金税四期是金税三期的升级版,将充分运用区块链、大数据、云计算及人工智能等新一代信息技术,从而实现对税收征管全流程的智慧监管。金税四期将与企业涉税信息数据联网核查,增加企业相关人员身份信息、手机号码、税费登记、纳税状况及信用状况的核查功能。进一步系统搭建与中国人民银行、中华人民共和国工业和信息化部、国家市场监督管理总局等各部委、机构涉税大数据共享与核查通道,增加与中国人民银行的涉税信息联网获取,进行涉税交易资金流管控;同时增加了对社保和非税业务的数据获取及分析监控,必将大大推动企业社保缴费的合规遵从。另外,金税四期还将通过自然人纳税识别号,智能化系统获取“一人式”税收大数据,使个人的资产收支更加透明化,个税的风险管控进一步加强。
随着金税四期的上线,利用金税系统及智慧税务平台智能化获取、应用税收大数据,进而实现在更大范围内、更多部门之间涉税大数据的互联互通,相互验证,系统集成,共识、共享应用,进而有效突破征纳信息不对称带来的征管瓶颈,建立对纳税缴费业务全流程、全方位、立体化的税收大数据智能化获取、分析监控体系,实现从“以票管税”向“以数治税”分类精准监管转变。因此,纳税缴费自愿合规遵从税法是未来的发展趋势。
四、税收专项调查与统计报表制度
(一)实查实测、实估实算
这种方法又称实地调查法,是指调查者到纳税人缴费人实际生产经营的场所,通过实地观察、询问等方式获取相关税收大数据。实地观察纳税人缴费人生产经营的状况,与被调查者进行面对面的接触、询问、访谈、记录而获取第一手税收大数据的调查分析方法。具体表现为实查涉税生产经营、工艺流程、原材料消耗、能耗及产能状况和变动情况;实测原材料及产成品库存状况及变动;实估计税销售收入、经营收入、投入产出率、利润率等相关税源指标;结合现行税法及相关政策实算法定的纳税能力。实地调查法通常与询问调查法结合应用。对被调查者进行直接询问访谈调查的方式有多种,如入户现场调查询问、随机采访、开座谈会等。典型应用包括税收风险特征调查、税收风险应对、税收政策效应分析等。
(二)税收统计报表制度
税收统计报表制度是按照国家税务总局统一的代码及格式要求,自上而下统一布置,自下而上逐级提供报告涉税统计资料的一种数据获取方式。税收统计报表制度是我国税收管理部门收集、整理、报告税收统计资料普遍采用的一种方式。通过税收统计报表,可以全面系统地收集涉税生产经营过程的税基、计税收入、应纳税额及征收入库全过程的信息和数据资料。
(三)小组座谈法
1.含义
小组座谈法是市场营销中市场调查广泛使用的一种获取信息数据的方法。运用在税收风险信息数据调查中时,是调查人员通过召集被调查者或走访被访问者,以召开座谈会的形式与被访问者直接面对面交谈,通过倾听、询问、了解一组被调查者的涉税生产经营情况,从而获取税收大数据的一种调查方法。这种方法的价值在于可以从小组讨论中得到一些意想不到的延伸涉税信息及更多发现。
2.特点
小组座谈法通常由一个经过训练的主持人以一种无结构的自然的形式与一个小组的被调查者进行沟通交谈,如企业的法人代表、财务负责人、生产负责人、营销人员等。主持人负责组织讨论,参与者负责记录、获取税收大数据。小组座谈法的形式与特点见表2-1。
表2-1 小组座谈法的形式与特点
(四)税收问卷调查法
1.含义
税收问卷调查法又称“填表法”,是税务机关以系统论的观点和方法来设计风险问卷及相关获取表,通过询问或发放给区域某类行业的纳税人缴费人填写,由他们回答本单位内部所面临的税收遵从风险问题及风险环节来获取税收大数据的方法。按照问卷填答者的不同,可分为自填式问卷调查和代填式问卷调查。一般来说,纳税人缴费人熟悉自身生产经营过程中采购、生产、销售各个环节的细节情况,在税务人员的指导下亲自填写回答相关涉税问题,为进一步分析判断税收遵从风险特征及环节,系统地识别风险提供有价值的、详细的信息数据资料。
2.税收问卷的结构
税收问卷调查的问题有两种类型:开放性问题和封闭性问题。开放性问题,又称无结构的问答题,所设计的问卷称为开放式问卷。问卷设计者不提供具体选择的答案,被调查者用他们自己的观点和语言自由回答问题,不受任何限制。开放性问题可以让被调查者充分地表达自己的看法和理由,并且比较深入,有时还可获得调查研究者始料未及的答案。它的缺点是收集到的资料中无用信息较多,难以统计、汇总、计算和分析。由于回答开放性问题有时需要思考作答,所以有时会遭到拒答。特别是对于大量的需要数据分析的调查,其局限性较大,通常与封闭式问题结合使用。封闭性问题,又称有结构的问答题,所设计的问卷称为封闭式问卷,它规定了一组可供选择的答案和有固定回答的问题,填充数据的格式与表格示例如表2-2所示。
表2-2 企业迁址税收遵从风险调查问卷
表2-3是关于大型企业集团内部关联交易的部分封闭式调查问卷,表2-4是关于企业销售环节的询问调查问卷,包括开放式问题和封闭式问题。
表2-3 大型企业集团内部关联交易的封闭式问卷(部分)
续表
表2-4 企业销售环节的询问调查问卷
续表
3.税收问卷的设计流程与方法
(1)确定调查的行业、纳税人缴费人名目及调查目的。
(2)确定数据获取的方式及相关问卷采集表。
(3)确定问题回答形式,是开放式还是封闭式,抑或是两者结合式。
(4)确定问题的措辞,用词清楚,避免使用诱导性用语,考虑纳税人缴费人回答问题的能力、意愿和水平。
(5)确定实施问卷的流程。
(6)审核、评价、编排问卷,获得相关方面的建议和认可,修订、完善问卷。
(7)问卷实施,问卷分类整理、汇总与分析提炼。
(五)重点税源调查
1.重点税源调查的意义
重点税源调查是指在全体调查对象中选择一部分重点税源单位进行调查,以获取税收大数据的一种非全面税源调查方法。由于重点单位在全部调查对象中占比在20%左右,而税收收入却占80%左右,因而对这部分重点税源单位进行调查所取得的税收大数据,能够基本上反映总体税源的的数量特征及税收遵从风险特征规律。开展重点税源调查,对进一步摸清重点税源家底,掌握重点税源的真实生产经营情况及税收遵从风险隐患,加强对重点税源监控管理具有重要意义。
2.重点税源调查的实施流程如下
(1)确定调查的时间、范围及调查对象。
(2)明确调查项目和具体调查内容。
(3)明确参加调查的人员,落实具体职责分工。
(4)设计调查问卷,做好调查前的准备。
(5)严守工作职责,组织实施调查。
(六)税源抽样调查法
1.税源抽样调查法的意义
税源抽样调查法是非全面税源调查的一种主要组织形式,广泛运用于税收经济分析、税收遵从风险分析等。税源抽样调查法是指从调查对象的全部单位中按照随机原则抽取一部分单位进行观察和分析,并用部分单位的税收经济数量特征、税收遵从风险数量特征推断总体税源数量特征的一种调查方法,在税收经济分析、税收遵从风险分析中常用的一种数据获取分析方法。
在税源抽样调查中,被研究对象的全部单位称为“总体”,从“总体”中随机抽取出来,实际进行调查分析研究的部分对象所构成的群体称为“样本”。在税源抽样调查中,随机抽样技术的运用以及样本、样本数的确定是一个关键问题。
税源抽样调查法具有如下特点:一是按照随机原则抽取调查单位;二是用样本单位的税收数量特征推断税收总体的数量特征,而且能够对推断结果的可靠性和精准性做出验证和说明。
2.税源抽样调查法在税收遵从风险管理中的实践应用
税源抽样调查法在税收遵从风险管理中的实践应用主要是通过对样本单位的税务审计和风险分析,得到样本单位的税收流失风险特征的相关指标的特征参数,运用数理统计的推断技术及验证调整方法,利用样本单位的税收流失风险指标描述总体税收流失风险情况,并进行推断和估计。
美国在20世纪60年代启动的“税收遵从评估项目”和后来改进的“国家研究项目”估算税收流失,以及英国估算直接税的税收流失主要使用的就是这种方法。该方法的基本步骤如下:首先,科学抽取样本。根据税收流失估算的目标,结合不同规模、不同地区、不同行业、不同管理方式等情况设计抽样方案。在有些情况下还可以结合税收遵从情况,对于一些高风险的纳税人可加大抽样的权重和次数,而对低风险的纳税人相应减少抽样的次数。其次,由富有经验的税务人员对样本企业进行全面税务审计和纳税能力测算,发现样本企业的逃税风险特征并记录,或者基于关联比对匹配的原理,利用税务部门现有的征管和稽查历史数据,采取统计插值计算办法,估算样本逃税数据,进而通过乘数放大法推断总体税收流失的估计值。
(七)税源典型调查法
1.税源典型调查法的意义
税源典型调查法是开展税收经济分析、税收遵从风险特征分析及税收政策效应分析中常用的税源调查方法,特别是在税收遵从风险指标构建及验证、优化阶段,选择不同规模、不同行业具有典型税收遵从风险特征代表性的税源单位,深入到实际税源的经营场地,调查了解税源的税收遵从风险特征及具体的风险环节。
税源典型调查法是根据事前拟定的调查目的和要求,在对调查对象进行初步分析的基础上,有意识地选取不同规模、不同行业,少数具有典型税源数量特征和税收遵从风险特征代表性的税源单位,如遵从度较高、财务核算资质较高,或者遵从度较低、财务核算不规范的典型税源单位,开展深入细致的调查研究,解剖麻雀,提炼共性,用以认识、反映税源数量特征或税收遵从风险特征及变化规律的调查方法。典型调查要求搜集大量的第一手原始税源真实资料,搞清所调查的典型税源单位税源数量特征或税收遵从风险特征规律,系统、深入、细致地开展分析研究,为深入开展税收政策效应分析,构建税收经济分析指标、税收风险指标模型及参数验证提供科学依据。
2.税源典型调查法的实施流程
(1)做好调查前准备,包括制订调查方案、调查问卷设计等。
(2)确定调查对象。合理划分类别,将税源按规模、行业等标志进行分类,并按分类类别列出名册,从分类名册中分别选取具有典型代表性的税源单位作为调查对象。
(3)调查具体实施。调查人员深入生产经营实地,采取询问、调阅相关账簿资料、填制调查表及相关问卷等方式了解涉税生产经营过程,深入观察、详细记录,了解税源生产经营的实地状况、税费登记、认定、发票凭证、相关账簿、纳税申报及税款缴纳等全过程。
(4)调查信息数据整理与初步分析。