看起来纷繁复杂的海量数据资料,通过分析,可以发现很多有用的信息,可以告诉我们很多隐藏在数字背后的秘密,并有效提高决策的准确性。淘宝根据购物记录可以推荐买家可能会喜欢的商品,餐厅根据用餐记录可以推荐消费者可能喜欢的菜单。大数据审计分析可以通过对相关领域长年累月形成的数据的分析,挖掘出某种群体行为的特点,提示某种社会现象的潜在规律,为政府制定政策提供关键依据,同时还可以评估政府政策的实施效果,从而帮助政府不断发现问题,改进问题。下面笔者结合自己从事的地税审计业务浅谈在大数据审计分析中的心得体会,以达抛砖引玉之目的。
一、大数据环境下面对的数据类型
我们平常所说的计算机数据分析,是对结构化数据运用SQL查询进行的分析。所谓结构化数据,即行数据,是存储在数据库里,可以用二维表结构来逻辑表达实现的数据。结构化数据通过SQL Server、Oracle等关系型数据库系统进行存储,是我们开展地税审计工作中最常使用的数据类型。而不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。所谓半结构化数据,就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。
在税务部门的日常工作中,有很多信息是以非结构化数据的形式存储和使用的。比如纳税人基本资料、经营状况、办公场所情况及企业财务报表等是以图片资料或报表的形式提交至地方税务机关;某些与应纳税额相关的信息则可以在工商、房产交易等有关职能部门的公开网站上进行查询,同时百度等搜索引擎能够在互联网范围内为审计人员提供帮助。如在核查房地产企业缴税情况时,其开发楼盘的行政审批进度、楼盘属地及性质、项目完成情况及市场运行情况、售卖情况等信息是核定其应纳税额的重要参考依据,在税收征管审计过程中,审计人员可以从网络上获取这些信息,让这些以图片或网页方式存在的非结构化数据为我所用。
二、大数据环境下的地税审计技术方法
在目前的地税大数据审计分析中,审计人员以地税部门税款征收、管理、稽查等主要业务环节的内部控制为主线,通过对税款申报、征缴数据和相关外部数据等内外结构化数据的分析,结合收集到的半结构化和非结构化数据,对税收收入的真实性、合法性进行重点审计。同时,把握税收征管改革方向,关注与宏观经济发展相协调的税收政策执行情况的审计,促进强化税收执法力度,规范税收管理行为,提升税收征管质量和效率。
1、多表数据关联分析
(1)多税种分析。根据现有税收法律法规,在商品房预售过程中,营业税(销售建筑物或构筑物)、核定征收的印花税(产权转移书据)、土地增值税(未开始清算)之间的计税依据应该是一致的。审计人员通过多个数据表的关联,对(房地产)企业全年的缴税记录按照税款所属期和税种进行排序,然后分析比较同一个所属期中,企业的销售建筑物或构筑物营业税、核定征收产权转移书据印花税和未进行过清算的土地增值税之间的计税依据是否一致,如不一致,则作为疑点进行延伸了解。当然,这样的疑点可能会比较多,我们可以设定一个阈值,比如可以选择营业税应缴税费超过100万元以上企业进行分析比较。
审计分析需要注意的是,如果印花税实行查账征收(合同总金额),则其计税依据与其他税种就不具备上述每个所属期一致的特点。对于实行尾盘销售的项目,其土地增值税计税依据与其他两个税种也会不一致。
(2)网络发票开票数据与缴款数据关联分析。网络发票是指开票单位或个人通过税务部门的网络发票管理系统开具的发票。审计人员首先对发票有关的表进行分析,了解各字段含义,并统计企业全年开票总金额(开票方)超过一定阈值以上单位。然后分析开票额超过阈值以上的单位当年营业税纳税情况,比较并筛选出开票额与营业税计税依据差距较大的企业。通过“开票金额”与“营业税计税依据”相减,在差额结果中,挑选有开票金额无营业税交纳情况的单位和开票金额和营业税计税依据均存在但其差额为一定金额以上的单位。最后把得到的疑点数据推送地税部门进行分析和核实。
(3)税费数据对比分析。以娱乐业文化事业费征缴为例, 审计人员以纳税人实际交纳的娱乐业营业税为基础,测算出应交纳文化事业建设费金额,对比该纳税人实际交纳的文化事业建设费,得出疑似少交文化事业建设费的疑点数据。
2、通过趋势分析,查找企业提前或延迟入库税款情况
对税收收入构成和年度变化趋势进行分析,各税种间横向变化趋势与税种自身纵向变化趋势进行分析,各行业税收趋势进行分析,掌握税收增减变化情况,分析影响增减变化的原因,对差异较大的异常情况,则作为下一步延伸核查的内容和重点。
(1)税款异常波动情况分析。一方面通过对企业全年12个月每个月缴纳税款形成的曲线图,分析企业是否存在某一段时间突然显著降低或上升,比较某税种在持续可比的税收期间(月度、季度等)入库数额是否有较大异动,核查是否存在某部分税款少征漏征,初步判断企业是否存在延迟或提前入库税款。另一方面,通过对统计报表中分地区分税种分年度数据对比,掌握某区域税收收入增减变化趋势,了解各地之间是否有争夺税源的情况。
(2)大额整数税款分析。挑选单笔入库税款为10万(或100万)整数倍的企业进行分析,分析其真实性及合理合规性。同时,关注入库日期为6月(所属期为5月)、12月(所属期为11月)的营业税、城建税、教育费附加、地方教育附加4项合计金额整数倍或接近整数倍的企业,关注其税款入库情况。此外,印花税、土地增值税一般在各年度按当期实际的销售收入缴纳入库,因此如出现营业税及附加税费配比正常但没有预缴土地增值税和印花税的情况,则也需考虑其是否存在提前或延迟入库的现象。
(3)特征分析。通过分析缴款明细数据中税款来源为风险自查等特征数据,了解地税部门去年的关注重点,进而找到审计人员的关注重点。
3、结合外部数据,开展地税数据审计分析
(1)城建税、教育费附加和地方教育附加均是以三税(增值税、消费税、营业税)实际缴纳税额为依据,按照一定比例征缴。而增值税、消费税数据均在国税部门,因此审计部门需要通过获取国税部门的相关数据,以对企业在地税部门是否涉及少缴附加税费情况开展审计。同时,关注城建税、教育费附加和地方教育附加征收范围和地方教育附加征收标准调整后,执行落实情况,有无违规减免、有无少征漏征等。
(2)通过获取工商登记数据,查找是否存在已经在工商部门进行了注册登记,却未在税务部门办理税务登记而少缴税的企业;通过对工商股权变更数据的关联分析,关注企业、个人股权转让中个人所得税是否足额缴纳。
(3)通过获取国土部门土地出让数据,分析企业是否足额缴纳印花税。并关注土地转让过程中的契税和营业税,了解是否存在税收流失的情况。
4、通过时间等多个维度对多个税种缴款数据进行分析
(1)对房产税、城镇土地使用税的审计。通过对近两年地税部门房产税和城镇土地使用税明细数据的分析,审查近两年房、土两税变化较大的企业其税款变化是否合理;重点审查有无缴纳房产税未缴城镇土地使用税、以及缴纳城镇土地使用税未缴纳房产税的企业。
(2)对房地产公司企业所得税进行审计。以2016年开展地税部门2015年度预算执行情况审计为例。首先,计算2014年全年房地产企业入库销售建筑物或构筑物的营业税和企业所得税情况(2014年入库,所属期为2014年度); 其次,计算2015年对应房地产企业入库销售建筑物或构筑物的营业税和企业所得税情况(2015年入库,所属期为2014年度); 第三,合并前两步得到整个所属期为2014年度的入库企业所得税金额和营业税金额; 第四,以营业税金额测算得到销售收入金额,进而分别测算企业毛利润、毛利率,考虑企业相关税费等因素,因此筛选毛利率低于一定阈值的企业。同时统计各企业的企业所得税纳税申报次数及实际纳税次数。最后根据分析得到的疑点数据,了解企业所属期2014年度,企业所得税额偏少的原因以及部分企业没有按月(或季度)申报缴纳企业所得税的原因。
(3)对重点税源户的审计。分析重点税源户和纳税大户(年纳税额一定阈值以上)近两年入库税收收入变动情况。重点关注房地产企业的税收分析:通过整体分析房地产行业纳税人营业税、城市建设税及附加、企业所得税、土地增值税、印花税等之间的内在关系,审查其是否及时足额缴纳各项税收。
5、利用大数据开展稳增长等政策执行情况审计
在税务管理情况审计上,通过对涉税大数据的分析,把握税收征管改革方向,重点关注与宏观经济发展相协调的税收政策执行情况;关注对小微企业降费清税等相关税收政策的执行落实情况,促进加强纳税服务,确保相关税收政策落到实处。根据营改增税目清单,关注地税部门在营改增后如何加强税务管理、税款征收等方面的工作,分析其对地方税收的影响。关注预征土地增值税税率2014年调整后企业是否少缴等。
6、结合半结构化数据开展总体分析
(1)在税收预算执行情况审计上,首先,通过汇总整个地区税收数据,与取得的当年税收统计报表相比对,以确认该地区税收征管审计取得数据的真实完整性。其次,通过对税收征管数据的分析,结合金库报表、地税部门会统报表,审计地税部门税收预算执行情况,分析评价其组织收入的措施及能力。最后通过分税种、分地区、分级次分析税收征管数据、与地税部门会统报表进行核对等方式,了解核实前一年度收入组成及同比增长情况。
(2)根据税务稽查数据分析结果,确定审计疑点,抽审案件卷宗,关注稽查任务执行情况,审查查补税款是否及时足额入库。了解前一年土地增值税已清算房地产企业名单,审查地税部门对符合清算的是否及时进行清算,税款是否及时入库。
(3)企业所得税审计中,通过分析企业提供给税务部门的多年财务报表,并集合外部房地产销售形势,分析判断企业利润情况真实性。
7、结合非结构化数据开展地税审计
审计人员通过全国工商信息网查阅企业工商登记信息核实经营范围和开发资质,通过在房地产市场信息网查询某楼盘开发项目的信息,了解该楼盘开发总套数、销售情况以及是否为保障性住房等信息,来核实其营业税计税依据,是否享受税收减免及是否应进行土地增值税清算,最后结合结构化的税款缴款明细数据,核实该企业税款缴纳是否及时、足额。
8、开发工具开展各税统筹分析
有的时候我们用SQL查询语句无法直接实现我们希望达到的功能,而目前市面上还没有符合审计人员特定需求的审计分析工具,因此审计人员就通过有关高级编程语言编写小工具、小软件,实现我们需要的功能。
三、大数据环境下的审计取证与数据安全
大数据时代,一个微小的数据泄密,就可能使被审计单位蒙受巨大损失,并可能使得审计部门处于很被动的地位。因此,审计人员和审计机关对取证和数据安全应引起足够的重视,千里之堤,不可溃于蚁穴。必须加大投入,严格管理,保证数据安全。
1、大数据环境下的审计取证
在大数据环境下,审计证据的存在形式、内容、获取的方式等与传统纸质证据有明细的区别。一方面,各种数据管理软件(包括会计软件)的更新换代,增加了数据提取的难度。被审计单位的数据由于软件版本的更新和数据的逐年积累,数据量越来越大,也越复杂,审计人员不得不从浩如烟海的资料中收集整理相关数据,因此带来了更多的检查风险。另一方面,软件公司为了维护公司利益、保守其技术秘密和商业秘密,会采用愈来愈严格的防范与保密措施,增大了审计取证的困难。
审计人员在取证时,除了传统取证方式外,还可以采取外部调查、重新计算操作、分析等方法向有关单位和个人获取审计证据。审计人员可以根据情况采取如数据分析结果存盘、数码拍摄照片、屏幕拷贝图片等多种电子取证方式。
2、证据判断与处理处罚意见
证据的准确判断可以迅速锁定重要问题。在大数据环境下,我们必须进一步审慎对待审计分析结论,并与被审计单位充分沟通。审计组对审计发现的问题提出处理处罚意见时,除了应当关注法律法规的条款外,还应当关注行业标准和规定,在审计实施过程中还需要持续关注标准的适用性。
3、电子资料的安全保管
审计人员获取的被审计单位的数据经常涉及相关工作秘密或商业秘密等,因此审计组负有保管和保密义务。由于信息化环境下,他人只要能访问电脑,就可能对数据文件进行复制并带走,因此应对相关服务器设置高强度的密码,并定期更换。审计组应对相关计算机及移动存储设备采取必要的安全防范措施,落实专人保管,非相关的人员不允许接触,以防止不法份子盗取审计保密资料。另一方面,从被审单位采集的各类电子数据及技术资料,在审计过程中形成或取得的资料、数据、文件,未经批准,不得向外泄露或向其他人提供。电子资料管理不善,可能给审计人员和被审单位带来不可弥补的损失,甚至将审计人员自身推上被告席。同时,要注意电子资料(证据、底稿等)的备份,以防由于软硬件故障导致资料丢失而使得前面的工作毁于一旦。
审计结束,各种数据文档等,属归档范围的应及时整理归档(可以刻盘存储),不属归档范围的应定期销毁,切实消除各种不安全隐患。
四、当前开展地税大数据审计存在的制约因素
1、涉税数据大集中未形成制度化,数据共享有困难
长期以来,涉税数据分散在各个相关单位,没有进行统一的管理与分析,不利于税源控管。为了加强综合治税,实现涉税信息全覆盖管理,提高税收征管效率,促进财政收入持续稳定增长,部分地区开展综合治税工作,要求涉税数据集中共享,但一些地方仍存在一些制约因素。
(1)数据大集中未形成稳定的长效机制。目前对涉税单位缺乏可行的约束机制,导致一些涉税单位在综合治税工作中,存在迟报、缺报等现象,数据更新不及时,有的单位只是初期一次性共享一批数据(一次性数据),后期就再无更新,或者数据更新有停顿。随时间推移,这些数据已经逐步失去了时效性和使用价值。另外,参与单位年末内部人员岗位变动后经常不能及时上报有关部门更新其联系人,导致出现找不到联系人的情况。
(2)涉税数据的分析利用率有待进一步提高。涉税数据来之于全市多个部门,数据内容丰富,数据量也越来越大,含有很多有利用价值的信息,然而当前对数据利用的深度和广度有不足。据笔者了解,很多审计部门如要使用涉税大数据,经常要经过复杂的申请审批程序,而其中国税部门由于不是我们的审计对象,因此对国税的数据共享更是存在比较大的困难。
2、各部门之间的涉税数据的关联性不强,数据质量有待提高
大数据环境下开展审计,要求各个部门之间的数据一定要能够有关键字段进行关联,否则就很难达到1加1大于2的效果。
(1)部分部门的数据之间缺乏统一的数据关联标准和规范。涉税数据来源于不同的部门,涉及的机构多,信息化水平不等,最为突出的是纳税人身份识别码不统一。工商部门、供电部门、自来水公司、民政局等政府部门及社会公共事业单位都有各自的编码规则。结果同一纳税人在不同的机构、不同的系统有不同的代码,导致归集、利用这些不规范数据时效率偏低,在数据处理过程中可能会造成有效数据的遗失或数据匹配错误,影响到涉税大数据应用的成效。据笔者了解,国家目前已明确要求今后将把组织机构代码作为一个单位的唯一识别码,就有如自然人的身份证一样。但此一要求有待各部门对其信息系统的进一步升级。
(2)涉税各部门的数据质量有待提高。一是部分单位的数据中缺乏某些重要字段,使得数据不具有使用价值;二是金额单位不一致,比如土地转让数据的“转让金额”字段,有时候以元为单位,有的则又以万元为单位,导致数据不便于统计分析;三是部分数据缺乏完整的数据字典,部分单位提供的报表和数据项目,无法利用。
3、部分审计人员还未做好开展大数据审计的思想准备
常见的大数据技术有关联规则学习、分组、数据挖掘、模式识别、预测模型等。因此对审计人员来说,不仅仅要懂得看电子账和利用SQL语句进行结构化数据查询分析,还要了解非结构化数据的特点,学会利用大数据工具分析查找规律、发现线索。这就需要建立包括懂审计业务、数据分析以及熟悉常用大数据分析工具等方面的审计人才团队。因此,对审计人员开展大数据分析培训的工作任重而道远。
另外,当前开展大数据审计的思路和方法还不是很多,适合审计人员使用的大数据分析工具还比较少。
本文转自d1net(转载)