会计数据仓库建立探讨
【摘要】 会计核算软件数据接口国家标准的颁布,给不同会计软件之间的数据交换提供了一个统一和规范的格式。随着数据接口标准的推广实施,利用基于会计核算软件数据接口标准建立的数据仓库,对企业的财务进行分析就成为必然。文章从数据仓库的模型设计,数据的采集、转换等方面,对基于国家会计数据接口标准建立数据仓库进行了相关的技术探讨。
【关键词】 会计软件;数据接口标准;数据仓库;数据模型
随着会计信息化的发展,我国的会计软件种类也越来越多,但是往往都自成体系,采用的数据库平台和数据结构也就大不相同。由此使得不同的会计软件之间,以及会计软件与会计数据相关的业务软件之间的数据交换,形成了一定的障碍。2004年9月20日,GB/T19581—2004《信息技术会计核算软件数据接口》国家标准的颁布,在很大程度上解决了会计软件之间数据交换的障碍。只要符合会计数据接口标准要求,实现会计信息化的单位就很容易将历年的会计数据导出,通过建立数据仓库,并利用会计核算软件对数据仓库的数据进行相关的财务分析和决策。同时利用数据仓库对繁多的会计数据进行管理,不仅将提高会计数据利用率,通过利用数据仓库进行财务分析,还可以提高管理决策的质量。
一、会计核算软件标准数据接口基本内容
由于目前财务软件的平台复杂多样,而这些软件之间的数据没有一个统一的数据规范,造成不同财务软件之间数据交流相当困难。GB/T19581—2004《信息技术会计核算软件数据接口》的颁布主要是对国内所有正在使用的会计核算软件(包括含会计核算功能的会计信息系统、管理信息系统等)规定统一的数据输出的内容和格式。会计核算软件数据接口分两个部分,一部分是规定其内容,包括电子账簿、会计科目、科目余额、记账凭证、报表等;另一部分规定其输出的格式要求,包括文本文件的输出方式和XML 文件的输出方式,并要求以一定期间为单位导出会计核算数据。
二、数据仓库与接口标准之间的关系
William H. Inmon 在1993年写的《Building the Data Warehouse》论著中,将数据仓库定义为:“一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理层的决策过程”。由定义可知,数据仓库的主要特征为:面向主题性、数据的集成性、稳定性、时变性。通过数据仓库,不同层次的管理人员可以进行各种管理决策的分析。数据仓库中存放的是数据的历史值,并且是静态的历史数据,可以定期添加,具有低访问率,高访问量的特点。而这些数据都来源于其他不同的数据库。
目前的多数财务软件在数据库的选用、数据库的格式上大不相同,导致各财务软件之间不能互相交换数据,也给审计软件导入财务软件的数据带来了一定的
困难。而以往数据仓库在财务上的应用,基本上都是面向单个企业的单独开发。GB/T19581—2004《信息技术会计核算软件数据接口》的颁布,在很大程度上解决了这种障碍。按照会计核算软件数据接口标准的数据结构和内容,建立一个标准数据库即数据仓库,从而企业可以根据会计数据接口标准要求,将原数据库中的数据转换为标准规定的格式,并可以通过数据仓库将符合要求的会计数据从会计核算软件导入或导出,从而实现对数据仓库进行相关的财务分析及决策。
三、数据仓库的模型设计
数据仓库创建之前首先要根据需求明确所构建内容的主题域。在根据需求分析确定主题域后,就可以通过建立数据模型对数据仓库进行描述。模型是对现实世界进行的抽象描述,在信息管理中要实现对信息的管理与分析,就要依靠数据模型将现实世界的事物转换为信息世界的数据。创建数据仓库所采用的模型主要有概念模型、逻辑模型、物理模型。
(一)主题域的确定
数据仓库设计的关键是主题域的确定,整个数据仓库的数据都是围绕主题和软件标准数据接口而组织的,主要用于对企业的财务进行分析。根据数据接口标准规定的数据文件,主题可以分为以下几类:
资产负债表主题:主要分析企业某一特定日期内的财务状况,还可以进一步细化分为资产主题,负债主题,所有者权益主题;
现金流量表主题:分析企业在一定会计期间现金及现金等价物的流入和流出情况;
利润表主题:用于分析企业在一定会计期间的经营成果;
所有者权益变动表主题:分析企业一定时期所有者权益变动的情况;
财务分析指标主题:通过以上主题来分析企业一定时期的营运能力、偿债能力、获利能力及发展能力等。
(二)概念模型设计
星型模型和雪花型模型是概念模型设计常使用的两种模型。雪花型模型是对星型模型的扩展,适用于具有复杂结构数据仓库的应用,星型模型是最常使用的模型。模型设计主要用于设置事实表与维表之间的连接,使每个维表通过主键与外键连接,进而实现与事实表的连接。概念模型的设计就是要根据需求,确定业务中的指标实体和维实体,以及在实体间建立联系,概念模型设计后可以在一些开发工具中,利用一些技术功能直接转换为物理模型,再生成数据库,从而节约了时间并提高了效率。
(三)逻辑模型设计
通常在概念模型设计好后,还要依靠逻辑模型来实现概念模型到物理模型的转换。由于目前数据库都建立在关系数据库基础上,所以所采用的逻辑模型主要是关系模型。会计核算软件数据接口标准对所涉及的数据元素规定了统一的格式,在建立的逻辑模型中,要根据数据接口的规定对数据的字段进行格式描述。逻辑模型设计主要包括事实表,维表设计以及粒度的划分。
(1)事实表。直接反映了数据仓库中应用的主题,是星型结构中最主要的表,包含了数据仓库中最主要的信息,如资产负债表、现金流量表、利润表、所有者权益变动表、财务分析表。而数据仓库的数据都是来自于不同数据接口的数据库,在进行数据仓库的逻辑模型设计时,还要确定各表中的数据元素即字段与数据源的逻辑关系,以便核算软件按照接口标准要求输出文件。其中的对应关系可以归纳为:第一种是数据元素和数据源的一一对应,即可以在核算软件中找到与数据元素直接对应的表与字段;第二种是数据元素需数据源通过计算得到,即必须对数据源进行计算处理才能满足标准规定的数据元素的需要;最后一种对应关系是依据逻辑判断非源于特定数据源的数据。数据源的确定和对应关系是会计软件输出符合标准数据的逻辑基础。因为过于庞大的事实表在表的处理、备份和恢复、用户的查询等方面需要较长的时间,在设计时要注意使事实表尽可能地小。
(2)维表。主要用来描述事实表,与事实表有着非常重要的关系,在事实表中大多数属性都要依赖于维表,维表的主键组成了事实表的外键,每个维表都通过主键与事实表的外键连接,实现数据库快速查询。维表的属性也要根据接口标准规定进行规范定义。维表也会影响企业决策的因素,如不同企业、日期、指标类别都是影响企业决策的因素,通过这些因素决策者可以按照不同企业不同日期不同指标类别进行决策分析。根据事实表设计的维表有会计期间维表、报表编码维表、日期维表、企业维表等。
(3)粒度的划分。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。通过粒度的划分,决定了数据仓库是采用单一粒度还是多重粒度,以及粒度的划分层次。粒度级越低,细化程度越高;相反,粒度级越高,细化程度越低。粒度的划分直接影响到数据仓库中的数据量和信息查询,以及进一步进行OLAP(联机分析处理)和数据挖掘的效果。如果主题的数据量、信息量较多,对主题数据分析细化程度要求较高,就要根据用户对数据仓库应用的需求,采用多重粒度进行数据划分。用低粒度即细化到月的数据,保存近期的会计报表及财务分析指标数据,对时间较远的会计报表及财务分析指标数据的保存用粒度较大即细化到年的数据。这样既可以对财务近况进行细节分析,又可以利用粒度较大的数据对财务趋势进行分析;否则采用单一粒度进行划分。
(四)物理模型设计
逻辑模型在物理系统中的体现模式,需要通过数据仓库的物理模型设计来实现。包括逻辑模型中的各种实体表的具体化,包括表的数据结构类型、索引策略、数据存放位置及数据存储分配等。会计软件数据接口标准中所要求的数据接口输
出数据,包含接口标准要求的16个数据文件和1个格式说明文件,每个文件的文件名都进行了严格的规定。同时在标准中对16个数据文件的81个数据元素也进行了严格定义,首先,在物理模型设计中表的数据结构应根据接口标准要求,对数据的格式及内容进行统一的定义规范,如表的字段标识符要采用三位数字进行标记,字段的类型长度最多为5位可变长字符。只要会计软件的数据仓库的数据接口符合接口标准,就可以实现输出符合标准的数据。其次,由于数据仓库的数据量很大,通过索引的创建可以提高数据存取的效率,通常按事实表的主键和外键来建立索引。在数据仓库中首先需要为事实表设置索引,在为事实表的主键声明约束时,应该按照这些列的声明次序创建一个惟一的索引。而对于使用频率较高的外键,应置于主键索引的前面,以提高查询效率。
数据仓库中的数据可以通过数据库访问接口,将源数据库中的数据转换为标准格式的数据导入。其中数据的存储通常按数据的重要性、使用频率以及对响应时间的要求进行分类,并将不同类型的数据分别存储在不同的存储设备中,其中重要性高、经常存取并对响应时间要求高的数据存放在高速存储设备上,而存取频率低或对存取响应时间要求低的数据则可以存放在低速存储设备上。
四、数据仓库的创建
通过对数据仓库中的事实表、维表的逻辑模型设计,同时根据在物理模型中对各种表的存储区间、方式的处理,在数据仓库的实施过程,采用适当的数据仓库创建工具,就可以创建数据仓库。目前用于创建数据库的工具主要有SQL Server、Oracle10i、Sybase等。数据仓库的创建可以根据具体情况选择适合的开发工具。
五、数据的采集及转换
数据仓库的物理模型设计完成后,就要根据会计核算软件数据接口标准,来完成数据仓库结构的建立,实现数据仓库和元数据库的创建,然后就可以对数据仓库进行数据的加载。元数据库是数据仓库的灵魂,没有元数据库,用户就无法对数据仓库的数据进行良好的定义、组织和管理。数据的采集及转换是建立数据仓库中最重要的处理过程之一,这一过程实际上是要把来自不同的操作性数据源、不同的数据进行集成,将非标准的数据转化为在一定程度上的标准化的数据。采集之前首先需要对数据进行预处理,即进行准备工作包括清空工作区、准备区。由于数据仓库中的数据来源十分复杂,这些数据在进入数据仓库之前常常需要在准备区对数据进行标准化处理,即将不同数据结构的数据进行统一处理,如源数据库中的数据类型与长度和标准规定的有所差别,就需要进行数据的类型转换、长度的截取等工作。数据的采集可以通过数据库接口访问源数据库,将数据转换为标准格式数据存入数据仓库,同时为了确保数据仓库中数据质量,还要对数据进行必要的清理即筛选工作。数据的清理工作必须严格依据元数据的定义进行,数据清理结束就可以将经过净化和转换的数据加载到数据仓库事实表中。实现的工具主要有SQL Sever、Oracle等。对数据提取以后,同样也可以利用SQL语言实现对数据的加载。
六、数据仓库的使用
在会计数据标准接口中,已经将会计科目、会计凭证、会计账簿、会计报表等中的数据纳入,并进行了统一规范。因此可以通过标准数据接口将每年的会计数据保存到数据仓库。按照会计数据接口标准要求,将会计数据仓库中的历年数据输入到会计核算软件中,并利用会计核算软件对其进行相关的财务分析、经济前景预测,以帮助管理者为企业的将来做出正确的决策。随着数据接口标准的推广实施,基于会计核算软件数据接口的数据分析技术和方法会越来越多,并且应用范围也会越来越广泛。●
【参考文献】
[1] 会计核算软件数据标准接口国家标准实施指南编委会.GB/T 19581—2004《信息技术会计核算软件数据标准接口》实施指南[S].北京:中国标准出版社,2005.
[2] 陈京民.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2007.
[3] 池太崴.数据仓库结构设计与实施[M].北京:电子工业出版社,2005.
因篇幅问题不能全部显示,请点此查看更多更全内容