连云港市审计局 刘剑波

摘要:本文以审计领域已经投入实践的技术为基础,在全套开源技术的支撑下,充分考虑在受限制条件下的系统整合可行性,综合考虑各种可能应用的数智化审计功能。以业务流程为功能设计基础,将审计流程映射为数据处理分析的6个顺序阶段,以信息流程为功能实现支撑,充分利用各式有成熟开源技术的数据库、AI框架、AI应用中间件、软件,信息流程以业务流程为阶段,部分功能又各有交互。

关键词:数智化审计系统 系统设计 人工智能

随着人工智能技术的飞速发展,以人工智能和大数据技术为代表的数智化技术在各行各业快速进入应用,如何有效整合利用数智化技术,是审计人员急需思考破题的问题。以下是作者在集成数智化审计系统方面的探索方案。

一、集成数智化审计系统设计的硬件软件环境

根据上文的综述的结论,考虑一些审计队伍(基层审计机关、数量众多的一般会计审计事务所)的资源特点,和人工智能技术的灵活搭配特点,先行利用开源、成熟的对国产替代硬件环境兼容性良好的AI应用、中间件、组件、数据库搭建,再逐步完善功能,替换可控组件,是适用一线审计队伍的实践部署策略。可适用现场审计的分析环境等非生产环境,完全可控的生产环境需要按有关规定对软件备案,或者根据情况软件、硬件物理隔离。

数据采集的中间件方面,采用支持数据库CDC(Change Data Capture,变更数据捕获)功能的消息中间件。在国内各领域使用较为广泛的有两个技术路线,一个是KafKa系列,一个是Mgtt系列,两个系列在各行各业均有广泛的应用场景。

在大语言模型的选用方面,主要考虑有一定开源基础的LLM方案。设计阶段主要考虑本地化部署,在智能化工具嵌入实践章节中融合本地化部署和网络应用。本章节重点关注以因地制宜的方式开发部署轻、重咸宜的人工智能应用,主要基于开源和国内受限制使用模型的环境背景。因目前主要的应用于财经、金融方面的人工智能体采用的多是Transformer架构训练的LLM,为了达到智能化程度的提升,该类人工智能的训练基座多数参考或者使用一些成熟的数据集、模型进行训练,训练出的生成式大模型通常具备黑盒人工智能的特点,为了实现人工智能的智慧涌现,生成的智慧涌现就意味着要容许概率的错误发生,这也是目前常见人工智能问题的根本原因。审计分析工作的一大痛点是非结构化文件、数据的分析,为解决上述一些问题,参考对大模型专业领域的测试结果,拟采用在该领域具有较好性能、兼容性的Llama3系列、Deepseek V3系列、及一些专用Coder模型,根据各自特长分不同场景使用。

在AI应用中间件和参考方面,采用开源代码优先方案。为了便捷开发部署,降低一线审计队伍的困难程度,参考ChatGPT类模型说明书籍(其开创的OpenAI API及调用方法在人工智能领域广泛应用并被借鉴,一些接口、方法是公认的领域标准)、Llama家族类、千问、Deepseek、智谱清言等开源模型系列的说明文件,使用通用性较强的模型中间件软件Langchain、Llamaindex的配置和接口说明文件。

在文本的审计分析方面,采用RAG技术线路。根据IDC的报道,当前,检索增强生成RAG应用与矢量数据库Vector Database是AI厂商开发的重点方向,2023年在全球非结构化数据中占比高达92.9%。可以说RAG应用是将非标准化数据与关系数据库、矢量数据库联通起来进行分析的重要工具。用户需要更好的管理、维护这些非结构化数据从而用于更精准的分析和AI内容生成。

在数据库的分析应用方面,功能上目前分为三块,为关系数据库的分析、智能化数据库分析、时序数据库分析。关系数据库管理软件选用方面,要采用开源的或国产硬件环境兼容性好的数据库管理软件,常见的BS(Browser/Server,浏览器/服务器)开源数据库管理软件有phppgadmin、phpMyAdmin、Dbeaver Cloud等,常见的商用化专业通用数据库管理软件有Navicat、Dbeaver等。智能化数据库分析方面,采用文生SQL方案,主要是审计面对的财经、金融类数据对数据有着高精度的要求,参考公开论文的BloombergGPT和LightGPT模型应用方案,灵活应用LLM对会计分录摘要和业务管理行为记录、管理文档的智能化文本分析,和对金额数字的SQL查询分析和文生SQL查询是当前可以实现的数智化技术路线。在时序数据库方面,时序数据库天然具有的时间属性,以及便捷的内置时间函数,可以降低使用普通关系数据库带来的再编程难度,是可以直接实时处理数据事务的应用,常见的时序数据库有TimescaleDB、InfluxDB等,时序数据库整合了以往要编程的一些分析管理过程,已经被广泛应用于金融财务等数字资产管理、医疗监控、厂矿自动化以及物流网络等领域。

在提示词工程应用方面,我们要清醒的认识目前大模型应用以问答为主,大部分的科技类、法律类应用方案广泛使用人工智能的提示词工程优化问答效果,一些应用的功能不同主要基于提示词设置的不同。良好的提示词组织是提高人工智能生产效率的必备条件。

二、数智化审计的流程(主要功能框架)设计

参考以往使用数字化工具开展审计的流程,以及其所实现的实际功能,注重智能化时代应用的实时性、智能化特点,梳理大数据、人工智能全技术链软件,重新构建数智化审计业务流程和信息流程如下。

(一)、数智化审计的业务流程设计

利用好、发挥好人工智能特长的智能化审计特点,将数智化技术嵌入审计流程,发挥智能化数据采集、数据清理、矢量化存储、自适应的快速智能分析、数智化审计辅助、辅助生成审计报告这几个环节。

1、智能化数据采集

   在一些行业领域,不管是关系数据库数据还是互联网应用、互联网网页数据随时可能发生变动,面向智能化的数据采集能力应当将实时的数据采集能力考虑进去。传统的数字化审计通过备份Excel电子表格、Sql Server、Oracle数据库等形式采集财务软件,智能化时代要增加使用消息中间件软件构建实时自动化采集功能,近年数据库平台技术发展迅速,主流数据库平台对CDC(Change Data Capture,变更数据捕获)技术的支持,为实时采集工作(消息队列中间件软件采集)提供了便利。将会为审计工作带来巨大进步,大幅度提高信息采集、传输效率。

2、数据清理

有两个硬性条件要求对原始数据进行数据清理:一个是非结构化数据经OCR转换成文本或结构化数据后,通常存在的转换误差问题,一般要再次矫正;一个是人工智能所积累的信息存在泄露个人信息的可能,根据有关规定个人信息的使用是有限定范围的。同时要注意的是,政府各部门的工作常涉及到个人私域信息,标签化的信息处置不当甚至可能形成算法、模型的特定歧视,因此行政行为产生的任何数据,不论是训练大模型数据,还是形成本地知识库数据,对原始数据的及时脱敏清理均是有必要的,这也是一些国家、地区人工智能伦理和道德方面的必备要求。目前,两办印发《关于加强科技伦理治理的意见》,提出敏捷治理的治理理念,要求加强科技伦理风险预警,及时跟踪研判、动态调整治理方式。国家网信办等七部门出台《生成式人工智能服务管理暂行办法》,提出安全和发展并重的,创新与治理结合等治理原则,对此都有监管要求。

3、矢量化存储

    矢量化存储是空间化的存储,可以解决海量数据库的快速查询问题,是对结构化数据库文本在储存形式上的转化(文本在应用中的数字量化比储存阶段的数字化操作效率更高),是对数据查询在空间维度上的提升,可能也是存储、分析海量数据的唯一有效途径。所以,对应的一些智能化应用数据采集、本地知识库搭建或者图片文本识别、存储、分析都要依赖于本地化的矢量数据库的搭建。矢量化存储信息将是人工智能在审计效能提升上的一个重要条件。

4、自适应的快速智能分析

快速分析、及时预警是当代国际金融行业采用RPA自动化审计的原因,可以有效防范风险,及时分析判断、预防问题的发生,信息化、智能化时代,实时的审计是国家审计发挥经济监督“免疫系统功能”的触手和免疫抗体,也是内部审计领域,以数字说话发挥建设性作用,提升管理价值、加强财经纪律的强大武器。各类审计部门都有特定的独立性要求和数据化审计的任务基础,在大数据和人工智能的驱动下,对各单位、项目开展实时监督将会为审计工作的改革带来巨大的发展空间,是对经济治理能力方面的巨大进步。

5、数智化审计辅助

在智能化审计方面,数智化审计的方法将会比传统基于数据库分析的数字化审计提供更有效用的辅助审计作用。不论是审计取证单还是审计底稿,都可以理解成是基于对发现问题、情况摘要的电子文本记录,孵化于NLP自然语言处理技术的大语言模型LLM在文本分析上具有一些专项优势。利用RAG技术与人工智能交互,首先可以形成审计定性的法规助手,其次可以智能分析、摘要文件辅助形成对审计事项的审计结论。数智化辅助分析可选用Ollama等本地化部署软件为LLM应用框架,模型按照以下应用场景灵活搭配:以千问、Llama3系列为主要模型基座,对财经类文本进行分析、问答,模型参数范围为量化简化的8B(80亿参数)、70B(700亿参数);选用nomic-embed-text对文本进行矢量化嵌入,参数为137M;选用qwen2.5-coder为数据库分析模型基座,对数据库执行文生SQL辅助分析、代码补全,参数为参数范围为量化简化的1.5B(15亿参数)、7B(70亿参数);使用Qwen2.5、llama3.1+法律、法规、规范性文件库搭建定性RAG,提供问题定性向导,参数范围为量化简化的1.5B(15亿参数)、8B(80亿参数)。

6、辅助生成审计报告

辅助生成审计报告主要依赖大模型的文本摘要功能,可以对一些取证材料化繁为简,提取关键信息和问题表述。2024年以来,我们的一些研究显示,大模型继承了NLP对文本处理综合的能力,具有较强的文献综合、摘要功能,2025年Deepseek推出后也已实现对财经报告实现抓取、分析解读功能。国内外有多单位可提供通过互联网使用的分析财经类报告的大语言模型。根据作者一年多来在使用LLM摘要、文本分析综合的应用实践来看,辅助生成报告的功能与RAG功能比较相似,优先选用RAG任务测试中功能强的专业LLM模型。因此本地化部署是以Qwen2.5、Llama3家族作为主要基座,参数范围为量化简化的1.5B(15亿参数)、8B(80亿参数),对审计记录进行提炼,辅助生成审计结论,结论可使用网络版的智谱清言重新摘要生成,校对后使用。

(二)数智化审计系统的业务流程和信息流程配合体系设计

搭建数智化业务流程,就必然考虑技术链的支撑体系(技术背景前文已有简述),因此数智化审计系统的主要流程包括两个层面,一个是数智化审计的业务流程系统,一个是数智化审计的信息流程系统。以下是数智化审计系统这两部分的流程框架:

图1 数智化审计系统的主要流程

信息流程系统是业务流程系统的支撑和底层实现,信息流程以数据库、人工智能为支撑技术,通过各式数据库、AI框架、AI应用中间件、软件进行链接,信息流程总体按照业务流程为阶段,顺序处理数据,但又有交互式的跨阶段数据流通,因此完整的数智化系统的功能要由业务和信息双流程配合体系共同实现。

参考文献:

  • Hassan Toor.Robotic Process Automation for Internal Audit[EB/OL].(2020-11-11)[2025-03-01].https://www.isaca.org/resources/isaca-journal/issues/2020/volume-6/robotic-process-automation-for-internal-audit.
  • 刘剑波.系统论视角下的人工智能审计应用探索[A]数字化与人工智能时代的审计[C]//2024年江苏省审计厅、江苏省审计学会全省“人工智能(AI)时代的审计”专题;,2024:576-587.
  • Jim Holdsworth,Matthew Kosinski.What is a vector database?[EB/OL].(2024-07-29)[2025-03-01].https://www.ibm.com/think/topics/vector-database.
  • Hugo Guerrero.Capture database changes with Debezium Apache Kafka connectors[EB/OL].(2020-04-14)[2025-03-01].https://developers.redhat.com/blog/2020/04/14/capture-database-changes-with-debezium-apache-kafka-connectors#.
  • 谢静.非结构化数据占比超过92.9%,IDC发布RAG与向量数据库市场前景预测[EB/OL].(2024-10-31)[2025-03-01].https://www.idc.com/getdoc.jsp?containerId=prCHC52694924.
  • Lewis Gavin.How to Implement CDC for MySQL and Postgres[EB/OL].(2021-11-09)[2025-03-01].https://rockset.com/blog/cdc-mysql-postgres/.
  • Danica Fine.COURSE: KAFKA CONNECT 101 Connectors, Configuration, Converters, and Transforms [EB/OL].[2025-03-01].https://developer.confluent.io/courses/kafka-connect/how-connectors-work/.
  • Team Timescale.BUIDL with Timescale[EB/OL]. [2025-03-01].https://www.timescale.com/crypto.
  • Ollama.OpenAI compatibility[EB/OL].(2024-02-08)[2025-03-01].https://ollama.com/blog/openai-compatibility.
  • Team Timescale.Semantic Search With Cohere and PostgreSQL in 10 Minutes[EB/OL].(2024-02-26)[2025-03-01].https://www.timescale.com/blog/semantic-search-with-cohere-and-postgresql-in-10-minutes.