国税局用大数据查税

最新动态 41

摘要: 大数据是指在电脑互联网时代由于包括结构性和非结构性的可用数据的指数增长,为商业和社会提供了精确分析的大量高速多样的数据。近几年来,由于电子报税的普及,第三方报表的增加,可用数据和国税局电脑系统及互联网的发展,使大数据在国税局应用有了客观条件 …

大数据是指在电脑互联网时代由于包括结构性和非结构性的可用数据的指数增长,为商业和社会提供了精确分析的大量高速多样的数据。近几年来,由于电子报税的普及,第三方报表的增加,可用数据和国税局电脑系统及互联网的发展,使大数据在国税局应用有了客观条件。据国税局统计,每年有约2.5亿份电子报税,18亿第三方报表,2.4万亿元税收,1.22亿份退税共4千多亿元,2.23亿封信件或通知寄出,一千多亿元应收税款,这些都是国税局大数据处理的物质基础。

由IBM等公司帮助国税局建立的电脑联网系统,主要运用有三方面:一是税表处理,包括退税,查出计算错误,问题解决及和解,与各州数据交换等;二是案件管理,包括监测低报税及逃税,查税,申诉,征收欠税,身份盗窃,刑事调查等;三是客户帐户,包括通知,信件和电话服务等。国税局有超过450个独立的系统和运用,有超过30个数据来源,并与政府各机构联网,甚至与脸书等社交网站联网。

由于近年预算缩减,国税局越来越多依靠电脑联网的大数据处理来提高查税效率。国税局已不用人工而用电脑筛选查税对象,以解决每年约3千亿元税收损失。由于电脑网路的发展,现在国税局只用十个小时就可载入过去要四个月才能载入的全部2亿多份税表。国税局用大数据可以帮助精确分析每个纳税人的行为,包括未报税付税,违规避税(Abusive tax shelters),身份盗窃,未报收入和抵扣,退税欺诈,报税员违规,离岸交易等。电脑联网系统可以帮助国税局建立纳税人报税缴税预测模型,估计税收缺口,衡量税负,模拟立法改变对纳税人行为的冲击(Impact),分析纳税人的网络和结构关系等等。而且,虽然有争议说国税局电脑查税是侵犯个人隐私,但由于国会赋予更大的权力,使国税局有每个人的社安号和收入等个人资料及其历史数据,有大量第三方报告,有广泛的政府和商业机构的联网,比任何商业机构更能掌握每个人的信息。

国税局怎样建立电脑模型没有向外透露。但据国税局合规分析办(Office of Compliance Analytics)主任Dean Silverman描述,国税局用了三种办法查税。一是建立了确认报税错误的模式识别(Pattern Recognition)。该程序可以即时发现报税错误,使国税局可以立即联系报税人,避免以往在报税季过后才发现错误,导致数以亿元计的退税错误发给报税人。二是建立诈欺检测模型。由于退税诈欺越来越严重,特别是身份盗窃的退税十分猖獗,国税局建立了不同的身份盗窃的滤网程序,改善了在处理税表和退税之前,阻止退税诈欺的能力。并且创造了身份盗窃分类法,形成完整的防范策略。三是建立了从信用卡交易查税追踪程序。两年前开始,信用卡公司已被要求必须用1099K表向国税局报告所有给交易者的付款,这使国税局可以在第一时间得到第三方报告,发现低报生意收入的行为。2013年,国税局发起1,492个身份盗窃的调查,其中1,257个被起诉。过去三年,国税局因为上述分析节省超过20亿元。

而且电脑网络技术是不断发展的,过去用的逃税手法已很难逃避电脑对大数据的分析发现。例如,每个行业都有行业代码,如出租车行业代码为485310,通过信用卡公司等第三方报告,国税局用模型对数以百万计的出租车报税资料进行分析,找出收入和费用规律,如果出租车报税偏离均值太远,电脑的红旗(Red Flag)就会出现,就可能被查税。再例如,一些人低收入报税,却有大笔现金买房或汇款回中国,或消费模式与收入不符,报低收入却买宝马车和出国旅游,都可在国税局的联网电脑分析中反映出来。国税局甚至可能在如微信等社交网站发现有低收入报税者在群里聊天炫富。如果电子数据显示某人消费多过报税收入,国税局就会断定其低报收入或逃税,就会将其列入查税对象。