您的当前位置:首页正文

基于图像工程的涉密文件检索系统设计

2023-02-06 来源:易榕旅网
基于图像工程的涉密文件检索系统设计

摘要:本文讨论了综合运用图像工程处理技术于涉密图片检索中的可行性,并初步设计了检索系统实现模式。 关键词:图像工程;图像检索;涉密文件图片

中图分类号:o29文献标识码:a 文章编号:1009-0118(2011)-03-000-01

基于内容的图像检索技术是图像工程的研究热点,能够弥补基于关键字的文件名和文本内容搜索技术在实际图像搜索中的不足。对图片特定区域内容检测,在国土资源调查,航拍、卫星图像检索,甚至在有关国家安全、信息安全、不良信息检测等方面有重要作用。 一、涉密文件检测技术现状

从新闻报道的泄密事件中可以看出,各种涉密文件资料被涉密人员有意或无意中存储到非涉密计算机中,而检测这些涉密文件资料就是有关部门落实保密防泄密的重要工作之一。这些涉密文件资料中的一部分文件,如扩展名为doc、xls、txt、ppt甚至pdf等文件,可以使用现有的检索技术按照事先构建的关键字字典很快检索出来。甚至不需要用专业的涉密文件检索工具,仅仅操作系统自带的检索功能就能完成。但是,事实上,大量的涉密文件可能被涉密人员通过扫描、照相等快捷方式存储在非涉密计算机中,这些文件被存储为jpeg、bmp、gif、png等类型的图片文件,且文档名可能并不敏感。使用关键字搜索,是无法检索出这些涉密文件资料的。而现有的市售的动辄几万几十万的专门检测软件也基本只能检测

文字文档,对图像文档几乎是完全无能为力的。 二、涉密文件图片特征及检索可行性分析

涉密文件图像背景基本为白色,如果将涉密文件图像头部使用图像分割技术切割处理,文件头部前景和背景对比度就会非常大,基本上不需要进行图像增强,不需要耗费运算时间。虽然现有的成熟的ocr技术在识别文档时处理速度慢,但是在小区域,且通过图像处理文字和背景基本上已经分离出来的这种纯中文文字识别中,效果应该是不错的。同时,因为文件格式的固有模式,还可以使用模式匹配的方式进行检测。简单的讲,就是对所有图像先分割切取头部,再应用识别技术判断。 三、国内外相关技术研究现状

本文涉及到图像增强、ocr识别、图像模式匹配等技术,国内外基本上都有较为成熟的技术。各技术研究状况如下:

图像增强技术:在matlab图像工具箱有亮度变化方法,如直方图均衡化和直方图匹配;有空间滤波器,如线性空间滤波器和非线性空间滤波器;也有锐化频率滤波器,如基本高通滤波器、高频强调滤波器等都可以进行图像增强[1]。

图像分割技术:基于区域的分割、使用分水岭变换的分割等[1,2],还有轮廓分割方法[3]。

图像模式匹配:现有相关匹配算法、最优统计分类器算法、串匹配算法等[2,3]。

内容检测技术:形状相似性度量法如形状直方图、便捷匹配、简

图匹配、目标检测机空间关系度量等[4]。

ocr识别技术:小波分析进行特征提取,神经网络进行文字识别[5,6]等。

以上算法都很成熟,这里不一一列举。 四、图像检索系统模式设计 系统实现模式如图1所示。 五、进一步思考

(一)涉密文件图片可能并不都是正面可视的,可能由于种种原因是顺时针或逆时针倒置、翻转,选择的算法要抗抵赖。 (二)前述系统是先剪裁获得特征图片再进行处理,若改为如下处理方式可能效果更好:

检索图片→图像增强→特征提取(对图片的上、下、左、右区域)→模式识别→ocr识别→关键词判断→定位图片

(三)对于具有较高的反侦察技术的高智商存储涉密图片的潜在窃密泄密者来说,只要获取时遮挡住文件头就可以逃过本检测技术的扫描,故如能增加图片其他固定区域(如底部、中间)或随机区域(最好是整行,保证尽可能有完整意义)的检测,则将大大增强该方法的有效性,但随之而来的ocr识别难度将加大。 六、总结

虽然基于内容的图像检索现在难度大、效率低、技术部成熟,但在某些特殊的领域,灵活运用成熟的图像处理技术,是能够产生较好的检索结果的。

参考文献:

[1]冈萨雷斯,阮秋琦等译.数字图像处理(第二版)[m].北京:电子工业出版社,2008.

[2]章毓晋编著.图像工程(下册)图像理解(第2版)[m].北京:清华大学出版社,2007.

[3]richard o.duda等著,李宏东等译.模式分类[m].北京:机械工业出版社,2007.

[4]郑南宁.计算机视觉与模式识别[m].北京:国防工业出版社,1998.

[5]韩力群编著.人工神经网络理论、设计及应用[m].北京:化学工业出版社,2007.

[6]刘长松,郭繁夏.印刷汉字识别方法综述[w].

因篇幅问题不能全部显示,请点此查看更多更全内容