数据仓库和数据挖掘在我国中小商业银行中的应用初探
摘要:本文在数据仓库与数据挖掘基础理论基础之上,将其运用于我国中小商业银行。以某银行的业务情况为基础数据,设计构建了个人及企业银行数据仓库的体系结构,并对其进行数据粒度的划分。在此基础上,对所构建的数据仓库进行多维数据分析,并通过实施数据挖掘操作,实现知识发现的功能。结果显示,通过应用数据仓库和数据挖掘技术,可以为其获得巨大的信息收益。 关键词:数据仓库;数据挖掘;olap多维数据分析;商业银行 近年来,由于我国商业银行业务量的增加,业务数据也随之大幅度增加。但由于缺乏有效的方法和手段以对数据背后所隐藏的规律和知识进行挖掘,导致银行工作人员无法利用这些数据对银行相关业务所包含的规律和未来发展趋势进行分析。上述现象在信息系统较不发达的中小商业银行体现则更为明显。数据仓库和数据挖掘技术作为信息化的有效工具,其在国外的金融领域已经得到广泛应用。以北美十大银行之一的蒙特利尔银行为例,通过运用数据仓库以及数据挖掘技术,对其产品线进行重新组织,并基于数据挖掘所获得的经验和知识,进行更具针对性的市场营销,总共为其节约了2280万美元。而这一技术尚未被我国中小商业银行所掌握。 一、数据仓库与数据挖掘相关理论概述 (一)数据仓库
数据仓库是“面向主题的、集成的、稳定的、随时间变化的数据集合,用于支持管理决策过程”。在这个定义中,w.h.inmon明确
给出了数据仓库的四个重要特点,即“面向主题”、“集成”、 “稳定”、“随时间变化”[1]。
数据仓库的数据组织方式主要包括有三种,分别是虚拟存储方式、基于关系表的存储方式和多维数据库存储方式等[3]。其中,多维数据库存储方式是直接面向数据挖掘分析操作所需的数据组织形式,它对dw中的海量数据从客户感兴趣的角度进行层次化处理、抽象概括,并设置维索引及相应的元数据管理文件,以对应于数据仓库中的数据[4]。与虚拟存储方式、基于关系表的存储方式中组织关系都比较复杂相比,更适用于组织、存储数据仓库中的海量数据[5]。
(二)基于数据仓库数据的olap 1.联机分析处理(olap)的概念和特征 2.olap多维分析操作
多维分析是指对数据仓库中的数据进行切片、切块、钻取和旋转等分析操作[9],用户能从多角度对数据进行深入剖析,进而了解其中的规律。
(1)切片。切片是指通过在某个或某些维上选取某一特定的属性成员,而在其他维上则选取一定区间的属性成员,对所获得的数据进行分析。以某银行部分业务数据所形成的数据立方为例进行说明:从该立方中选取2012年4月这一个时间段内所有理财产品的销售情况进行分析,此即为切片。
(2)切块。切块是在立方体中的三个维上取一定区间的属性成
员或全部属性成员。切块可以看成是在切片的基础上,进一步确定各个属性成员的区间得到的片段体,也即由多个切片叠合起来。 (3)钻取。钻取包括上钻和下钻两种操作。从高级数据到明细级数据视图称为下钻;从明细级数据到高级数据视图称为上钻。 (4)旋转。旋转指改变一个报告或页面显示的维方向,通过旋转操作可以最终用户从不同视角来观察数据。 (三)数据挖掘技术
数据挖掘是根据企业所设定的业务目标和存在的问题,对大量的业务数据进行探索,揭示隐藏其中的规律并模型化,以指导并应用于实际经营实践。通过对业务数据的挖掘,从中发现企业运作的本质规律,优化企业本身的运作[10],或进行有效的客户关系管理。 常用于银行业的数据挖掘方法主要包括:
(1)预测型方法:分类(classification) /决策树算法(decision tree)、回归分析(regression)、时间序列分析(time series)。
(2)描述型(descriptive)方法:关联分析(association analysis)、序列关联分析(sequential analysis)、聚类分析(clustering)。
将上述方法应用于银行业领域,其可实现的功能主要包括:大客户特征的识别、客户群体细分、客户流失的预测与控制、业务预测、理财产品销量预测、客户欺骗的早期识别等方面。 二、中小商业银行数据仓库的设计
(一)个人银行数据仓库构建 1.个人银行数据仓库的体系结构 (二)企业银行数据仓库构建 1.企业银行数据仓库的体系结构 四、结论
数据仓库和数据挖掘在我国中小商业银行中的应用尚处于探讨阶段。本文在对数据仓库与数据挖掘相关理论进行分析的基础之上,认为将其运用于我国中小商业银行具有可行性。以某银行的业务情况为例,对个人及企业银行数据仓库的组织构建进行设计,实施多维数据分析,进行数据挖掘操作及分析,认为通过应用数据仓库和数据挖掘技术,可以获得巨大的信息收益。■ (责任编辑:张恩娟) 参考文献:
[1]bendell j. data modeling and database design for data warehouses: the data warehousing institute, 1996.
[2]袁虹,何厚存.联机分析及数据仓库的建模技术[j].计算机应用研究,1999(12):61-63.
[3]史金红,吴永明.影响数据仓库成功的关键因素[j].电子工程师.2000(1):9-13.
[4]韦洛霞.数据仓库与olap[j].东莞理工学院学报,2000 (2):19-24.
[5]蒋翊凌.基于数据仓库的银行业务数据挖掘研究[d].上海:华东师范大学,2006.
[6]孙其辉.基于数据仓库的集装箱支线运输dss研究[d].辽宁:大连海事大学,2008.
[7]赵璐.数据挖掘技术及其在电信系统应用的研究[d].吉林:长春理工大学,2009.
[8]徐奇,杨光敏,欧阳学兵,靳志宏.基于数据仓库的口岸跨境运输决策支持与系统实现[j].交通信息与安全,2011 (3):110-115.
[9]靳志宏,徐奇,兰辉.集装箱多式联运的多维数据分析与数据挖掘[j].集美大学学报.2011(4).
[10] zhihong jin, qi xu. the realization of decision support system for cross-border transportation based on the multi-dimensional database. journal of software,2012(5).
因篇幅问题不能全部显示,请点此查看更多更全内容