数据智能的要素包括了算量(数据)、算力和算法,由于金税系统的建设,在数据获取与汇集上,我国税务系统的算量建设水平相当高,由于国家整体重视包括超算、云存储与云计算、数据存储中心、区块链等在内的建设,因此可使用的算力水平也不低。在算法方面,正如国家税务总局王军局长在出席中办国办印发的《关于进一步深化税收征管工作改革的意见》专家座谈会上所说的那样,在税务系统所进行的个人所得税汇算清缴计算机制、大数据支持的税务稽查等环节,已经在关注与应用算法技术了。但中国税务算法是税务数据智能三要素中提升价值与空间最大的。
算法与税务算法
算法(Algorithm)是一系列指令的集合,这些集合型的运算规则,使得在保证有特定化数据输入的时候,就能形成特定化的成果输出。税务算法则是一系列对应特定税务工作场景的专业处置规则所构成的指令集合,借助于这些集合型的运算规则,使得只要有一定数量和条件的税务数据输入,就能形成一定的分析成果、判别结果、行动对策与预测预警信息,支持高质量决策与决策执行追踪与“税务数据分析―决策指挥―行动追踪―成效评价一体化”机制。税务算法在不断的数据训练与实景应用中优化升级,特定的算法针对性地解决某个或者某类特定税务场景问题,而集合型的税务算法可以解决多类多型税务场景问题,对应全场景与全类型税务场景的全量税务算法集合构成“税务脑核”,有无“税务脑核”决定着是否真正拥有税务系统数字化管理中枢,是当下税务系统大脑内容建设的核心。
从税务工作数字化转型与数字化治理三层次(Digitization数字型信息体系的形成、Digitalization运用数据进行工作模式的数字化优化、Digitalization Transformation / Digitalization Governance实现具有常态化的数据自动分析―智能决策―创新行动管理一体化机制)逻辑架构出发,则税务算法集合是数字化税务治理从第一层次跃升到第二层次以上的关键和达到第三层次的构成要件。
税务算法的类型及其典型实例
税务算法分类最典型的可以按照问题场景类型进行,比如参照 12366咨询与投诉诉求分类,可以(在分到第五级、第六级情况)将税务问题场景分成大约 300类左右的细分小类(考虑社保缴费则可以达到 400左右),由于算法需要针对最具体的问题场景及其原始数据,因此深度细分类目更有价值,这就意味着针对税务热线诉求可以形成不少于 400个以上的税务算法与算法集合。同样,针对线上线下税务办事大厅的工作主项则接近 250项左右、税务税务违规违法查处事项 150项左右。在上述近 800项税务工作场景中,每个关键信息与数据来源都可能有数百上千类别的问题场景,每个场景都需要个或数个算法对应。不同信息来源的场景问题本来就可能有重叠和共性,因此多来源的场景数据可帮助我们鉴别共性、有一定代表性与个性特定问题,通常前两类问题更有用算法加以系统高效管理的价值。
税务算法的第二种分类是按照针对问题场景的处置功能来分类,比如我们针对问题需要进行判别判定(比如判定是否虚开发票、纳税人风险与税收信用评估)、分类排序(如确认虚开发票的类型及其变化周期)、场景匹配(比如纳税企业与可享受优惠政策的匹配)、预测预警(行业纳税能力通胀影响预测、特定问题的可视化地图分布与关联关系空间关系分析)、搜索推荐(特定减税降费政策推送)、指令模拟(稽查案件智能提示)、指令分发(任务工单智能派发)、任务追踪(处置工作全程追踪)、成效评估(指数化自动分析),这些都可以形成相应的判别算法、分类算法、分布算法、排序算法、匹配算法、预测算法、搜索算法、推荐算法、指令模拟算法、分发算法、追踪算法和评估算法。理论上,税务算法可以覆盖税务管理行为全程。
税务算法的第三种分类是按照算法构建留存的技术形态而分为朴素模型化算法与软件化算法两类。前者通常以文字和图形描述的模型逻辑架构+一定的计算公式的形式存在,通常大部分的算法也是有这样的模型基础的;后者则以程序语言的方式将算法的模型与非模型逻辑,开发为可以在系统上进行容器化或者插件化部署的微软件、微软件组合或软件模块。目前学术界所称的算法前一种会多一些,而在专业数据智能应用界,软件化算法因其具备置入硬件、软件系统、网络而实现在线运行和快速自动计算的优势而成为主流形态。未来中国税务算法可以在金税系统之上建设插件化部署的工作台形态。
典型的软件化税务算法部署实例包括,使用在税务热线管理后台的热线诉求管理智能分析工作台上的分析类算法、业务导航类算法指令、专项问题(热点问题、重点问题、难点问题与新点问题)解析型算法;使用在税务大厅服务管理系统上的探头影像中的问题事项甄别算法、问题事项智能派发与追踪算法、多类问题网格分布可视化关联分析算法、多类数据问题时空序列分析算法等;个人与企业所得税汇算清缴算法;基于各类税务违规违法的立案、查处、破案文本信息进行的知识图谱建设与深度算法开发而形成的行为类型(比如虚开发票)判别算法与分类算法;基于发票和社保费用缴纳数据进行的区域经济发展、行业发展、就业变动分析、企业运行连续性算法;基于税务知识库而进行的特定纳税主体自动化政策过滤分析算法与政策推荐算法;针对税务工作最佳工作标杆(工作部门、税务所)的数字化解析与算法化指令设计,形成培植“超能税务官”、“超能服务大厅”、“超能税务所”的算法化管理模式等等。
税务算法的来源及其构建
税务算法的形成,在起始处往往是因为有某些需要处置的税务工作事项或者场景性问题,这些问题有一定的共性,也形成了一定的痕迹资料、相关信息与数据,因此结合过去对于这类问题的处理经验与最佳做法,就可以提炼与开发初步的核心要素及其关联规则,形成一定的模型逻辑,来进行相应的模拟分析与运算,在分析运算基础上可以通过数据训练(场景数据化的成效检验、参数和变量调整、再检验、再调整)达到提升算法精度的目的,算法模块一旦成型则可以在规定的数据输入下形成相应的算法计算结果。如果模型与模式能够用程序语言编辑为软件,则算法化的软件虽增加了前面的开发成本,但在后续的运算效率因算法模块部署在政务系统上自动智能运行而会更高。
这里,我们大致会看到税务算法构建的操作步骤:1、可使用或者可访问的场景性问题信息与数据;2、业务团队与算法架构师针对问题处置经验的梳理与相关支持信息与数据;3、业务团队与算法架构师在前两者基础进行的提炼与算法逻辑构建;4、程序技术团队利用基础算法技术与其他系统开发技术,将算法业务逻辑进行程序化语言的转化,形成初步软件化的算法模块;5、算法训练(在应用场景中的多轮测试与场景性数据化检验);6、达到一定精度后的成型算法模块的部署;7、算法模块在特定数据输入下形成特定结果输出的常态化能力;8、算法升级与调整部署。
面对海量数据尤其是文本型的税务数据(税务热线工单、涉税案件查处资料、大厅办事数据、金税系统对应业务数据、非税关联社会数据),专业团队往往还需要通过知识图谱技术开发大量的税务知识图谱,以支持高效的机器化的深度学习,并在知识图谱基础上开发高精度的税务算法。同时作为对应具体税务服务与征管场景的应用算法,税务算法开发需要在充分利用基础算法工具与通用算法工具的条件下进行。总之,税务算法是对于特定税务场景问题的解决方案,因此开放税务工作场景并不是目的,推动税务数据共享也不是目标,场景提供与数据提供是提出问题与提供各类专业团队进入问题解决环节的机会,获得税务算法才是开放税务场景与附条件提供税务数据的目的。有价值的税务算法开发既不能只依赖系统内团队,因为其算法架构往往缺少创新性与超越性;也不能变成外部技术团队的专利,那样的算法往往不能有效解决特定场景问题。税务算法的开发需要特定税务领域的业务团队、掌握算法系统开发技术的技术团队、具备逻辑架构与跨界协调能力的税务算法架构者高效协同。
税务算法开发是问题驱动型的对策开发,也是需求驱动型的解决方案开发。而且同一个税务服务场景,需要的算法也不是只有一个、一种或者一类角度开发出来的算法,不同业务背景、不同技术背景、不同内外协同工作模式的团队可能会开发出不同的税务算法,其精度效能会有一定的差异,因此在选择合作的税务算法团队的时候需要充分考虑这些因素,当然在可能的条件下,允许针对同一税务场景问题尝试开发运行不同算法,以起到纠偏趋准的作用。在技术上,因为智能化税务算法微软件具有模块化、插件化部署的特点,不同特点的算法也同样可在相关系统上兼容部署,并不需要不断重复投入建设系统和平台,但需要原有与现有的系统开发商确保开放算法模块接口,而不至形成技术阻隔与低效部署。
税务算法集合及其应用
在税务算法软件化的前提下,同一团队开发的税务算法模块可根据需要形成不同的集合,用于解决不同的问题。不同团队开发的税务算法模块同样也可以参与形成组合,即使是不同开发团队开发的税务算法本身可以通过一定的接口连接起来。一旦有税务问题场景需要,就可以招标购买