一种数据本地化存储与处理系统

2020-07-31 来源：易榕旅网

Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ　ａｎｄ　Ａｐｐｌｉｃａｔｉｏｎｓ计算机工程与应用　７　一种数据本地化存储与处理系统　菁１，２孙功星　徐永士　，霍ＸＵ　Ｙｏｎｇｓｈｉ。～，ＨＵＯ　Ｊｉｎｇ　～，ＳＵＮ　Ｇｏｎｇｘｉｎｇ　１．中国科学院高能物理研究所计算中心，北京１０００４９　２．中国科学院研究生院，北京１０００４９　１．Ｃｏｍｐｕｔｉｎｇ　Ｃｅｎｔｅｒ，Ｉｎｓｔｉｔｕｔｅ　ｏｆ　Ｈｉｇｈ　Ｅｎｅｒｇｙ　Ｐｈｙｓｉｃｓ，Ｃｈｉｎｅｓｅ　Ａｃａｄｅｍｙ　ｏｆ　ＳｃｉｅｎｃｅｓＢｅｉｊｉｎｇ　１　０００４９，Ｃｈｉｎａ　，２．Ｇｒａｄｕａｔｅ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｃｈｉｎｅｓｅ　Ａｃａｄｅｍｙ　ｏｆ　Ｓｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ　１　０００４９，Ｃｈｉｎａ　ＸＵ　Ｙｏｎｇｓｈｉ，ＨＵＯ　Ｊｉｎｇ，ＳＵＮ　Ｇ．ｏｎｇｘｉｎｇ．Ｎｏｄｅ－ｌｏｃａｌ￣ｅｄ　ｄａｔａ　ｓｔｏｒａｇｅ　ａｎｄ　ｐｒｏｃｅｓｓｉｎｇ　ｓｙｓｔｅｍ．Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ　ａｎｄ　Ａｐｐｌｉ－　ｃａｔｉｏｎｓ，２０１２，４８（５）：７－１１．　Ａｂｓｔｒａｃｔ：Ｔｈｅ　ｌａｒｇｅ　ｄａｔａ　ｃｅｎｔｅｒｓ　ａｐｐｌｙ　ｔｈｅ　ｍｏｄｕｌａｒｉｚｅｄ　ａｒｃｈｉｔｅｃｔｕｒｅ　ｔｈａｔ　ｔｈｅ　ｃｏｍｐｕｔｉｎｇ　ｃｌｕｓｔｅｒ　ａｎｄ　ｓｔｏｒａｇｅ　ｓｙｓｔｅｍｓ　ａｒｅ　ｉｓｏｌａｔｅｄ　ａｎｄ　ｃｏｎｎｅｃｔｅｄ　ｂｙ　ｔｈｅ　ｈｉｇｈ　ｓｐｅｅｄ　ｎｅｔｗｏｒｋ．Ａ　ｆｅｗ　ｏｆ　ｔｈｅ　ｐｏｐｕｌａｒ　ｉｍｐｌｅｍｅｎｔｓ　ａｒｅ　ｌｉｓｔｅｄ．Ｏｎ　ｔｈｅ　ｂａｓｉｓ　ｏｆ　ａｎａｌｙｚｉｎｇ　ｔｈｅ　ｉｎｄｅｐｅｎｄｅｎｔ　ｓｔｒｕｃｔｕｒｅｄ　ｄａｔａ　ｆｅａｔｕｒｅ，ａ　ｎｏｄｅ　ｌｏｃａｌｉｚｅｄ　ｄａｔａ　ｓｔｏｒａｇｅ　ａｎｄ　ｐｒｏｃｅｓｓｉｎｇ　ｓｙｓｔｅｍ　ｉｓ　ｐｒｏｐｏｓｅｄ，ｗｈｉｃｈ　ｈａｓ　ｂｅｔｔｅｒ　ＴＣＯ（１ｂｔａ１　Ｃｏｓｔ　ｏｆＯｗｎｅｒｓｈｉｐ）ａｎｄ　Ｃａｎ　ｓａｖｅ　ｍｕｃｈ　ｍｏｒｅ　ｎｅｔｗｏｒｋ　ｂａｎｄｗｉｄｔｈ　ｆｏｒ　ｈｕｇｅ　ｄａｔａ　ｔｒａｎｓｆｅｒ　ｔｈａｎ　ｔｈｅｓｅ　ｅｘｉｓｔｉｎｇ　ｓｙｓｔｅｍｓ．Ｔｈｅ　ｄｉｓｔｒｉｂｕｔｅｄ　ｆｉｌｅ　ｍｅｔａｄａｔａ　ｍａｎａｇｅｒ　ｉｓ　ｉｍｐｏｒ－　ｔａｎｔ　ｏｒｆ　ｔｈｅ　ｊｏｂ　ｓｃｈｅｄｕｌｅ，ａｎｄ　ｔｈｅ　ｆｅａｔｕｒｅ　ｏｆ　ｔｈｅ　ｍａｎａｇｅｒ　ｉｓ　ｄｉｓｃｕｓｓｅｄ．Ｔｈｅ　ＰＢＳ（Ｐｏａａｂｌｅ　Ｂａｔｃｈ　Ｓｙｓｔｅｍ），ａｓ　ｔｈｅ　ｃｌｕｓｔｅｒ　ｒｅｓｏｕｒｃｅ　ｍａｎａｇ．　ｅｒ，ｉｓ　ｂｒｉｅｆｌｙ　ｉｎｔｒｏｄｕｃｅｄ．Ｈｏｗ　ｔｏ　ｑｕｅｒｙ　ｔｈｅ　ｆｉｌｅ　ｍｅｔａｄａｔａ　ｍａｎａｇｅｒ　ｉｓ　ｄｉｓｃｕｓｓｅｄ　ｉｎ　ｄｅｔａｉｌ．Ｔｈｅ　ｓｙｓｔｅｍ　ｏｆ　ｃｏｍｐｕｔｉｎｇ　ｎｄ　ｓｔａｏｒａｇｅ　ｍｅｒｇｅｄ　ｔｏ　ｏｎｅ　ｎｏｄｅ　ｌｅａｄｓ　ｔｏ　ｔｈｅ　ｄｉｆｆｅｒｅｎｔ　ｗａｙｓ　ｈｏｗ　ｔｈｅ　ｕｓｅｒ　ｓｕｂｍｉｔｓ　ｈｅ　ｔｊｏｂｓ．Ｔｈｅ　ｔｅｓｔ　ｒｅｓｕｌｔｓ　ｏｆ　ｔｈｒｅｅ　ｍｅｃｈａｎｉｓｍｓ　ｏｎ　ｔｈｅ　ｐｒｏｔｏｔｙｐｅ　ｓｙｓｔｅｍ　ａｒｅ　ｄｉｓ—　ｃｕｓｓｅｄ　ｉｎ　ｓｈｏｒｔ，ａｎｄ　ｓｈｏｗ　ｔｈａｔ　ｔｈｅ　ｉｌｆｅ　ｍｅｔａｄａｔａ　ｍａｎａｇｅｒ　ｉｓ　ｓｔａｂｌｅ　ａｎｄ　ａｌｌ　ｏｆ　ｔｈｒｅｅ　ｓｏｌｕｔｉｏｎｓ　ａｒｅ　ａｃｃｅｐｔａｂｌｅ．　Ｋｅｙ　ｗｏｒｄｓ：Ｐｏｒｔａｂｌｅ　Ｂａｔｃｈ　Ｓｙｓｔｅｍ（ＰＢＳ）；ｈｉｇｈ　ｐｈｙｓｉｃａｌ　ｅｎｅｒｇｙ　ｄａｔａ　ｎａｌａｙｓｅｓ；ｆｉｌｅ　ｍｅｔａｄａｔａ　ｍａｎａｇｅ；ｄａｔａ　ｓｔｏｒａｇｅ　ｌｏｃａｌｉｚａｔｉｏｎ　摘要：简述了当前大型数据中心普遍采用的计算节点集群与存储系统模块化设计的系统结构，说明了部署在各模块上的主要　集群系统。分析了具有独立性的结构化数据本地化存储于计算节点的可能性，给出了系统基本框架，从总体拥有成本（ＴＣＯ）的　角度分析了其价值。结合高能物理研究的原始数据特点，认为数据本地化存储在节点上，有利于提高整体利用率，指出了关键部　件——文件元数据管理系统的设计要点，分析了ＰＢＳ作业批处理系统集成文件元数据管理系统的三种方案，给出第一种方案的　详细设计，相应的用户提交作业方式的改变。在测试环境下，初步部署了文件元数据管理系统，测试了三种集成方案，给出了简　要的分析比较。　关键词：作业批处理系统（ＰＢＳ）；高能物理数据分析；文件元数据管理；数据存储本地化　ＤＯＩ：１０．３７７８８．ｉｓｓｎ．１００２．８３３１．２０１２．０５．００３　文章编号：１００２—８３３１（２０１２）０５．０００７—０５　文献标识码：Ａ　中图分类号：ＴＰ３９３　１　引言　随着技术的进步、设备精度的提高、时问的累积，各行业　收集的原始数据越来越多。在这众多行业中，高能物理研究　是个典型代表。　ＬＨＣ（Ｌａｒｇｅ　Ｈａｄｒｏｎ　Ｃｏｌｌｉｄｅｒ）是当前世界上最大的，也是　２　当前主流解决方案　大型数据中心的管理涉及到方方面面非常多的问题。但　是通常情况下，从软件的角度考虑，主要问题有：资源管理、数　据管理和作业管理。作业运行需要合适的操作系统、处理器　和内存等资源。数据存储方面，通常使用海量存储系统。而　高速局域网成为沟通各子系统的桥梁。　能量最高的粒子加速器，正常运行情况下每年大约产生１５ＰＢ　的实验数据，需要约２０万个频率为１　ＧＨｚ的ＣＰＵ核进行数据　分析和处理ｕ　。　中科院高能物理研究所的ＢＥＳＩＩＩ实验产生的数据包括原　２．１当前的架构　、　结构化、功能化的设计理念贯穿计算机发展的历史。图１　是冯诺依曼体系的个人计算机的系统结构简图，模块化的运　算部件ＣＰＵ和存储部件主存、磁盘之间通过总线交换控制信　息、数据等。　始数据、重建后的数据和蒙特卡罗模拟的数据等，预计总量将　达到５．７３２ＰＢ。在西藏羊八井的中．意ＡＲＧＯ实验，中美合作　的大亚湾中微子实验，以及与ＣＥＲＮ（欧洲粒子物理研究中心）　合作的ＬＨＣ上的ＡＴＬＡＳ和ＣＭＳ实验也将产生大量的数据。　预计物理学家要处理和分析这些数据需要大约１　５　０００最新的　ＣＰＵ核，以及６．８ＰＢ的大型磁带库系统作为近线的海量存储系　统。同时，为了加快数据的访问速度，系统采用大约５ＰＢ容量　的磁盘作为数据缓冲，缓存经常使用的数据，以加速数据的访　问，消除大型数据处理系统的Ｉ／Ｏ瓶颈　。　基金项目：国家自然科学基金资助重点项目（Ｎｏ．９０９１２００４）。　图１　基于总线的计算机系统结构简图　秉承相同的设计理念，大型数据中心通常采用如图２所示　的系统结构，由集群系统组成、磁盘缓存和海量磁带库组成。　计算机集群简称集群，是一种多计算机系统，它通过计算机软　作者简介：徐永士（１９７９一），男，博士研究生，研究方向：网格计算技术；霍菁，男，博士研究生；孙功星，男，博士，研究员，博士生剥币。Ｅ－ｍａｉｈｘｕｙｓｈ＠ｉｈｅｐ．ａｃ．ｃｎ　收稿日期：２０１１－０９—２７；修回日期：２０１１－１１－２７　徐永士，霍菁，孙功星：一种数据本地化存储与处理系统　９　东北大学的高性能集群也采用了ＰＢＳ的一个开源版本　ＴＯＲＱＵＥ作为资源管理软件。　算节点内部。图５即为数据存储本地化后的系统结构简图。　３．３磁带库管理系统　ＣＡＳＴＯＲ是ＣＥＲＮ开发的分级存储管理系统，其基本思　网　嗣存储　想是使用磁盘和磁带两级存储。由于文件平时存储在磁带　图５数据存储本地化示意图　中，ＣＡＳＴＯＲ提供了专门的命令查询和修改文件状态。　为了能够高效读取，当用户发出读请求时，系统首先检查　文件是否在磁盘缓存中。如果文件在磁盘缓存中，则直接将　很显然，图５所示的系统结构，需要引入一些辅助控制系　统，其中比较重要的是文件元数据管理系统。对于大规模数　据中心来说，该文件元数据管理系统，应该具有分布式、动态　性、健壮性和良好的访问效率。　如图６所示，由于用户提交的作业所依赖的文件的存储模　磁盘文件地址返回给用户。如果不在，则先请求从磁带上提　取文件，等文件提取到磁盘缓存后再返回用户　。ＣＡＳＴＯＲ特　有的数据迁移功能，做到了跨介质的存储虚拟化，使存储资源　的使用更加合理，也提高了整个存储资源的利用率。　３．４集群文件系统　许多共享文件系统都能够用作大型数据中心的存储管理　系统，但是比较优秀的集群文件系统除了提供共享访问的能　力，还需要：　（１）负载均衡。　（２）高性能，在Ｉ／Ｏ级和数据吞吐率方面能满足大规模的　聚合访问的需求。　另外，为了便于使用和进一步的开发，一般都提供：（３）良　好的编程接口，便于集群应用程序的编写。　现在比较著名的系统有ＰＶＦＳ、ＧＰＦＳ、ｚＦＳ、ＧＦＳ、Ｌｕｓｔｒｅ　等，下面将着重介绍在Ｌｉｎｕｘ平台上比较广泛使用的开源系统　ＰＶＦＳ和Ｌｕｓｔｒｅ。　ＰＶＦＳ［　（Ｐａｒａ１ｌｅｌ　Ｖｉｒｔｕａｌ　Ｆｉｌｅ　Ｓｙｓｔｅｍ）项目是Ｃｌｅｍｓｏｎ大　学为了运行Ｌｉｎｕｘ集群而创建的一个开源项目。目前已被广　泛地用作临时存储的高性能的大型文件系统和并行Ｉ／０研究　的基础架构。ＰＶＦＳ主要有以下不足：（１）单一管理节点，管理　节点很容易成为系统瓶颈。（２）对数据的存储缺乏容错机制。　（３）静态配置　。　Ｌｕｓｔｒｅ是第一个基于对象存储设备的开源并行文件系统，　被广泛应用于各大型数据中心。目前可以支持１　０００个客户　端节点的Ｉ／Ｏ请求。Ｌｕｓｔｒｅ采用分布式的锁管理机制来实现并　发控制，元数据和文件数据的通讯链路分开管理　。与ＰＶＦＳ　相比，Ｌｕｓｔｒｅ在性能、可用行和扩展性上略胜一踌。　３．５不足之处与讨论　这样的架构设计的优点显而易见，然而随着业务的增加，　对网络性能的要求越来越高，网络有可能成为集群环境的瓶　颈。从图３中可以看出，连接计算节点的是千兆以太网，而用　于存储系统内部节点连接的是万兆以太网。　微软研究院的Ｊｉｍ　Ｇｒａｙ早在２００３年的一篇《分布式计算　经济报告》　】中指出在ＣＰＵ速度、磁盘空间、数据库访问、磁盘　Ｉ／０、局域网带宽各项中，ＣＰＵ性能提高最多，因此，应该尽量　提高其他各项的利用率。　从成本的角度看，当前架构中，一方面是计算节点的本地　磁盘空间没有得到充分利用的；另一方面，如果降低对局域网　带宽的依赖，现有的局域网带宽能够进一步支持业务的增长。　４数据存储本地化　高能物理领域，由探测器获取的原始数据，按照一定的格　式存储，每个事例都具有独立性，并且存储大小是特定的。因　此符合上述讨论的结构化数据，能够将数据分散地存储在计　式的改变，资源调度器需要访问文件元数据管理器，以定位合　适的执行节点。　作业执行器　。’　、　｝文件系统｛　汁算节点　图６作业流程图　因此，文件元数据管理器在资源的使用过程中起到关键　的作用，也成为系统结构设计的重要部分。文件元数据管理　器必须有效地管理分布在集群中的众多文件，同时提供的接口　应该能满足资源管理器简洁、高效的访问需要的数据的要求。　从安全的角度考虑，文件元数据的信息需要设置合适的　访问级别，以防止用户的恶意攻击，也需要鉴别用户身份，以　限制用户取得适合的文件信息。　§　＿＿＿＿＿＿－１　龠奄．式　§　＼　憩　雠÷蘩　＼　毒＼ｌ　｜窀罐｜＿　—　黪■　毫缝ｌ　％髓镪糍　蕊　％戮麟瓣臻　图７设计影响因素　文件元数据管理器相关各部件主要功能列表见表１。　表１功能简要列表　客户端　选择合适的元数据管理器实例　节点监测　文件元数据管理器　文件副本管理　数据冗余　节点信息、节点虚拟根目录、统计信息　节点代理　文件、目录操作　文件ｓｔａｔ操作　由于文件元数据管理器的功能较复杂，详细设计不展开　讨论。　５系统集成　由于高能物理分析依赖的软件环境比较复杂，在现有的　基础上，分析各个子系统，逐步改进或更新各个子系统以实现　最终目标。　５．１　ＰＢＳ作业处理系统的处理流程　ＰＢＳ作为计算节点集群的资源管理系统，负责管理被提　Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ　ａｎｄ　Ａｐｐｌｉｃａｔｉｏｎｓ＇｝＇ｌ＂算机工程与应用　交的作业的具体调度。用户可以通过它提交作业、管理各个　度器无法保证作业被调度到的节点上存在被处理对象。　资源节点，并调度批作业在各计算节点上运行。ＰＢＳ作业处　理系统的结构如图８，通常情况下集群使用的是开源版本　Ｔｏｒｑｕｅ或Ｏｐｅｎ　ＰＢＳ，相应的运行的调度器使用Ｍａｕｉ／Ｍｏａｂ。　㈡Ｈ…ｏｓｔ…Ｃ－…Ｅｘｅ…ｃｕｔ…ｉｏｎ…Ｈｏ…ｓｔ—　……Ｈｏｓ…ｔ　Ｄ…－Ｃｌ…ｉｅｎ　一６＿　…　综合分析后，可以发现作业处理步骤中，有三处比较适合　植入名字映射功能。这三处已标注在图８中（红色粗线），分别　阐述相应的原理如下。　（１）作业提交（ｑｓｕｂ）的时候，可以限定执行节点的集合。　在用户提交作业的时候，提取处理对象，查询所在的存储节点　集合，选择合适的副本位置，在向服务器（ｐｂｓ＿ｓｅｒｖｅｒ）正式提交　的时候，同时限定计算节点。　（２）理论上调度器Ｍａｕｉ只能获得作业属性信息，无法访问　作业脚本。但是Ｍａｕｉ限定自身只能和ＰＢｓ服务器（ｐｂｓ　ｓｅｒｖｅｒ）　运行在同一台物理节点上，因此Ｍａｕｉ可以利用ｐｂｓ在服务器　图８系统整体结构图　如图８所示，ＰＢＳ的作业调度逻辑大致如下：（１）调度器　（ｓｃｈｅｄｕｌｅｒ）从服务器（ｓｅｒｖｅｒ）读取计算节点、作业信息；一（２）调　度器读取作业信息；一（３）调度器调度作业；一（４）调度器更新　作业信息，计算节点ｍＯｌＴｌ运行作业　】。　在图８中涉及作业调度的主要步骤为：　（１）步骤１，用户使用ｑｓｕｂ，或者其他方式，透过头文件　ｐｂｓ　ｉｆ１．ｈ定义的接口ｐｂｓ　ｓｕｂｍｉｔ提交作业；ｐｂｓ　ｓｅｒｖｅｒ接收作　业，返回作业号。　（２）步骤７，调度器Ｍａｕｉ调度作业；步骤８，服务器ｐｂｓ　ｓｅｒｖｅｒ　发送作业给相应计算节点的ｐｂｓ　ｍｏｍ　。（３）代理ｐｂｓ　ｍｏｍ执行作业，返回相应的执行结果，将相　应的输出写到指定的目录下。　从ＰＢＳ的角度来看，用户提交的作业，有两部分信息：一　部分是作业本身，以脚本的形式存在；另一部分是作业的限制　性信息，包括节点、时间、权限、用户、组、优先级等，以作业属　性的形式存在。调度器从服务器ｐｂｓ　ｓｅｒｖｅｒ　读取后一部分信息，并结合计算节点的状态等信息，按照一定的调度算法做出　决策。　５．２文件的逻辑名字到物理名字的映射　显然，集群存储的文件，由于多种因素的限制，暴露给最　终用户的并非物理名字，而是逻辑名称。一般情况下，用户提　交的作业指明的被处理对象，引用的都是相应文件的逻辑　名。因此，系统需要在合适的步骤，提供名字映射的功能，并　选择合适的副本。　通过以上对ＰＢＳ作业处理逻辑的分析，可以发现，调度器　Ｍａｕｉ使用的调度信息不包含被处理对象的存储信息，因此调　上存储脚本副本的规则，直接访问作业脚本，提取足够的信　息，从而决定合适的计算节点。　（３）代理ｐｂｓ　ｍｏｍ在设计的时候，已经考虑到某些复杂的　作业，可能需要多个计算节点的联合。因此，ｐｂｓ　ｍｏｍ可以在　服务器的指示下自行沟通，组成一卟临时的虚拟组。换种说法，　也就是ｐｂｓ　ｍｏｍ　Ｔｌｏｍ　有重新定位作业运行节点的能力。ｐｂｓ　１能够收到作业脚本信息，分析脚本，重新提取足够信息，再次　定位计算节点，完成二次调度。　５．３三种方案的比较及选择　方案的选择，不仅需要考虑用户的使用习惯，还要考虑已　有系统的变更范围。就现在的集群而言，用户习惯的变更，不　仅涉及到的用户范围大、层次多，而且极为容易造成作业脚本　书写错误。同样的道理，方案的选择，也应该以尽量少改动已　有系统为原则。　再次分析以上的三种方案，显然，第一种方案相对变更最　少；第二种和第三种方案虽然用户习惯的变更也较小，但是对　ＰＢＳ作业管理系统做较大的变更，尤其是第三种方案。　但是直观上可以发现，后两种方案，由于调度因子包含了　计算节点的负载指数，可以进一步利用集群的计算能力。　５．４第一种方案的算法　以下仅给出第一种方案的详细设计。　（１）分析作业提交信息，得到被分析对象的逻辑名字，设　置标￣ＥｂＳｐａｗｎ为真。　（２）生成作业提交唯一序号，记录相应作业信息入数据　库：提交序号、作业名、提交人、提交时间、状态。　（３）访问分布式文件元数据管理器，映射逻辑名，并将以　下信息记入数据库：作业提交序号、文件逻辑名、存储节点名、　脚本临时文件名。　（４）拷贝作业脚本，并修改被处理对象参数，数据库更新　“脚本临时文件名”。　（５）修改作业属性，限定计算节点。　（６）向服务器（ｓｅｒｖｅｒ）提交作业。　（７）如提交成功，将以下信息记入数据库：作业号、作业状　态、提交序号、作业名；否则，报错。　５．５用户作业提交　在保留用户大部分的使用习惯的前提下，提供一个能够　和文件元数据管理系统配合的作业提交命令。　如图９所示，作业提交命令，根据用户的命令行参数，查询　元数据管理器，解析数据文件描述的数据集，拆分脚本文件，　并提交作业到作业服务器ｐｂｓ　ｓｅｒｖｅｒ，同时记录相应的信息到　作业信息数据库中。　徐永士，霍菁，孙功星：一种数据本地化存储与处理系统　２０１２，４８（５）　１１　７００毫秒左右（取右侧较大的值），即每次查询的消耗约为７０毫秒。　文件元数据管理系统性能良好，初步满足了设计要求。　在此基础上，进一步实现了文中分析的三种ＰＢＳ作业批　处理系统集成方案，并进行了部署测试。　在测试环境下，作为基础的分布式文件元数据管理器，运　图９作业提交的逻辑结构　行稳定，在数百个作业同时提交的情况下，性能良好。　三种集成方案在测试过程中，第一种方式的性能最稳定，　但集群性能利用率偏低。第二种方式对ＰＢｓ服务器（ｐｂｓ　ｓｅｒｖｅｒ）　物理节点的性能消耗较大，内存消耗有明显增加。测试过程，　对以后实际选择集成方案以及具体部署给出了指导。　由于图９中的作业提交器对用户提交的脚本有所修改，造　成用户逻辑中的作业信息与ｐｂｓ服务器提供的信息有所不同，　因此，需将相应的信息存储以备用户查询。　６分析与讨论　实验在设计完成的分布式文件元数据管理系统的基础　上，初步部署了一个测试环境。测试环境操作系统为ｓｌｃ５．５，　ＳＡＳ硬盘，ＣＰＵ为Ｉｎｔｅｌ￣Ｘｅｏｎ０Ｅ５６２０，２．４０　ＧＨｚ，双核。每一　参考文献：　［１］Ｎｏｅｌｓ　Ｃ．Ｔｈｅ　ＬＨＣ　ｐｒｏｊｅｃｔ［ＥＢ／ＯＬ］．ｈＩｃｐ：／／ｌｈｃ．ｗｅｂ．ｃｃｍ．ｃｈ．　［２］孙功星，陈刚．海量数据处理系统的设计和实现［Ｊ】．高性能计算发　展与应用，２００８，２３（２）：３４—３７．　万次操作作为一组（横坐标单位为一千次操作），记录客户端　操作时间，典型测试结果如图１Ｏ所示，系列１为新增操作，系　［３】程耀东，马楠，于传松，等．海量存储系统中磁带文件缓存管理［Ｊ】．　核电子学与探测技术，２００６（４）．　［４】Ｃａｍｓ　Ｐ　Ｈ．ＰＶＦＳ：ａ　Ｐａｒａｌｌｅｌ　Ｆｉｌｅ　Ｓｙｓｔｅｍ　ｆｏｒ　Ｌｉｎｕｘ　ｃｌｕｓｔｅｒｓ［Ｃ］／／　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　４ｔｈ　Ａｎｎｕａｌ　Ｌｉｎｕｘ　Ｓｈｏｗｃａｓｅ　ａｎｄ　Ｃｏｎｆｅｒｅｎｃｅ，　２０００．　列２为查询操作（连续做十次复合条件查询），可以发现，每一　万次新增操作的时间在３３０～３５０秒之间，即每次元数据新增　操作的时间在３３毫秒到３５毫秒之间；每十次查询的时间在　［５］Ｚｈｕ　Ｙｉｆｅｎｇ．ＣＥＦＴ：ａ　Ｃｏｓｔ－Ｅｆｆｅｃｔｉｖｅ，Ｆａｕｌｔ－Ｔｏｌｅｒａｎｔ　ｐａｒａｌｌｅｌ　ｖｉｒｔｕａｌ　ｆｉｌｅ　ｓｙｓｔｅｍ［Ｊ］．Ｊｏｕｒｎａｌ　ｏｆ　Ｐａｒａｌｌｅｌ　ａｎｄ　Ｄｉｓｔｒｉｂｕｔｅｄ　Ｃｏｍｐｕｔｉｎｇ，２００６，６６．　【６］汪璐，石京燕，程耀东．基于Ｌｕｓｒｔｅ的ＢＥＳ集群存储系统［Ｊ］．核电子　学与探测技术，２０１０（１２）．　【７】Ｇｒａｙ　Ｊ．Ｄｉｓｔｒｉｂｕｔｅｄ　ｃｏｍｐｕｔｉｎｇ　ｅｃｏｎｏｍｉｃｓ［Ｒ］．Ｍｉｃｒｏｓｏｆｔ　Ｒｅｓｅａｒｃｈ，　Ｓａｎ　Ｆｒａｎｃｉｓｃｏ，Ｃａｌｉｏｍｉｆａ，ＵＳＡ，２００３．　［８］Ｂａｙｕｃａｎ　Ａ，Ｌｅｓｉａｋ　Ｃ．ＭＲＪ　ｔｅｃｈｎｏｌｏｇｙ　ｓｏｌｕｔｉｏｎｓ［ＥＢ／ＯＬ］．ｈｔｔｐ：／／　Ｗｗｗ．ｍｃｓ．ａｎ１．ｇｏｖ／ｒｅｓｅａｒｃｈ／ｐｒｏｊｅｃｔｓ／ｏｐｅｎｐｂｓ／ｄｏｃｓ／ｖ２＿２＿ｉｄｓ．ｐｄｆ．　［９】Ｂａｙｕｃａｎ　Ａ，Ｈｅｎｄｅｒｓｏｎ　Ｒ　Ｌ．ＭＲＪ　ｔｅｃｈｎｏｌｏｇｙ　ｓｏｌｕｔｉｏｎｓ［ＥＢ／ＯＬ］．　ｈｔｔｐ：／／ｅｃｅ．ｇｍｕ．ｅｄｕｆｌｕｃｉｔｅ／ｍａｎｕａｌｓ／ＰＢＳＰｒｏ５．０／ｐｂｓ　ｅｒｓ．ｐｄｆ．　图１Ｏ文件元数据管理系统性能测试　（上接６页）　ｌ５８５一ｌ５９２．　高。从实验结果来看，布匹瑕疵检测系统有较好的检测效　果。下一步工作是把算法加入到实时系统中，检测算法的实　时性和分类性能。　［７］Ｋｕｍａｒ　Ａ．Ａｕｔｏｍａｔｅｄ　ｉｎｓｐｅｃｔｉｏｎ　ｏｆ　ｔｅｘｔｕｒｅｄ　ｗｅｂ　ｍａｔｅｒｉａｌｓ　ｕｓｉｎｇ　ｒｅａｌ　Ｇａｂｏｒ　ｆｕｎｃｔｉｏｎ［Ｃ］／／Ｐｒｏｃ　２ｎｄ　ＳＰＩＥ　ＩＣＩＧ，Ｈｅｆｅｉ，Ｃｈｉｎａ，２００２：　５９—６２．　［８］８　Ｋｕｍａｒ　Ａ．Ｄｅｆｅｃｔ　ｄｅｃｔｃｔｉｏｎ　ｉｎ　ｔｅｘｔｕｒｅｄ　ｍａｔｅｒｉａｌｓ　ｕｓｉｎｇ　ｇａｂｏｒ　ｆｉｌ—　ｔｅｒｓ［Ｊ］．ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｉｎｄｕｓｔｒｙ　Ａｐｐｌｉｃａｔｉｏｎｓ，２００２，３８（２）：　参考文献：　［１］１　Ｓｒｉｎｉｖａｓａｎ　Ｋ，Ｄａｓｔｏｏｒ　Ｐ　Ｈ，Ｒａｄｈａｋｒｉｓｈｎａｉａｈ　Ｐ，ｅｔ　ａ１．ＦＤＡＳ：ａ　ｋｎｏｗｌｅｄｇｅ—ｂａｓｅｄ　ｆｒａｍｅｗｏｒｋ　ｆｏｒ　ａｎａｌｙｓｉｓ　ｏｆ　ｄｅｆｅｃｔｓ　ｉｎ　ｗｏｖｅｎ　４２５．４４０．　【９］周涛，张继业．视频图像的车辆检测与识别［Ｊ］．计算机工程与应用，　２０１１，４７（１９）：１６６—１６９．　『１０１　Ｓｈｅｎ　Ｌｉｎｌｉｎ，Ｊｉ　Ｚｈｅｎ．Ｇａｂｏｒ　ｗａｖｅｌｅｔ　ｓｅｌｅｃｔｉｏｎ　ａｎｄ　ＳＶＭ　ｃｌａｓｓｉｉｆ—　ｔｅｘｔｉｌｅ　ｓｔｍｃｔｕｒｅｓ［Ｊ］．Ｊ　Ｔｅｘｔ　Ｉｎｓｔ，１９９２，８３（３）：４３１－４４８．　ｆ２１　Ｓａｒｉ—Ｓａｒｒａｆ　Ｈ，Ｇｏｄｄａｒｄ　Ｊ　Ｓ．Ｖｉｓｓｉｏｎ　ｓｙｓｔｅｍｓ　ｆｏｒ　ｏｎ—ｌｏｏｍ　ｆａｂｒｉｃ　ｃａｔｉｏｎ　ｆｏｒ　ｏｂｊｅｃｔ　ｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．Ａｃｔａ　Ａｕｔｏｍａｔｉｃａ　Ｓｉｎｉｃａ，２００９，３５　（４）：３５０．３５５．　ｉｎｓｐｅｃｔｉｏｎ［Ｊ］．ＩＥＥＥ　Ｔｒａｎｓ　ｏｎ　Ｉｎｄ　Ａｐｐｌ，１９９９，３５：１２５２—１２５９．　【３】Ｋｕｍａｒ　Ａ．Ｃｏｍｐｕｔｅｒ－ｖｉｓｉｏｎ－ｂａｓｅｄ　ｆａｂｒｉｃ　ｄｅｆｅｃｔ　ｄｅｔｅｃｔｉｏｎ：ａ　ｓｕｒｖｅｙ［Ｊ］．　ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｉｎｄｕｓｔｒｉａｌ　ＥｌｅｃｔｒｏｎＣＳ，２００８，５５（１）：３４８—３６３．　［１１］梁竞敏．Ａｄａｂｏｏｓｔ￣ＩＩ信息瓶颈算法在图像检索中的应用［Ｊ】ｌ计算机　工程与应用，２０１０。４６（３５）：２１５－２１８．　【１２】Ｈａｎ　Ｄｅｇｕａｎｇ．Ｔｈｅ　ｅｘｉｓｔｅｎｃｅ　ｏｆ　ｔｉｇｈｔ　Ｇａｂｏｒ　ｄｕａｌｓ　ｆｏｒ　Ｇａｂｏｒ　【４】Ｍａｒｋ　Ｋ　Ｌ，Ｐｅｎｇ　Ｐ．Ａｎ　ａｕｔｏｍａｔｅｄ　ｉｎｓｐｅｃｔｉｏｎ　ｓｙｓｔｅｍ　ｆｏｒ　ｔｅｘｔｉｌｅ　ｆａｂｒｉｃ　ｂａｓｅｄ　ｏｎ　Ｇａｂｏｒ　ｆｉｌｔｅｒｓ［Ｊ］．Ｒｏｂｏｔｉｃｓ　ａｎｄ　Ｃｏｍｐｕｔｅｒ－Ｉｎｔｅｇｒａｔｅｄ　Ｍａｎｕｆａｃｔｕｒｉｎｇ，２００８，２４：３５９—３６９．　ｒｆａｍｅｓ　ａｎｄ　ｓｕｂｓｐａｃｅ　Ｇａｂｏｒ　ｆｒａｍｅｓ［Ｊ］．Ｊｏｕｒｎａｌ　ｏｆ　Ｆｕｎｃｔｉｏｎａｌ　Ａｎａｌｙｓｉｓ，２００９，２５６：１２９—１４８．　【５】吉祥，郭雷，陈大海，等．指纹亚像素频率的滤波方法［Ｊ］．计算机工　程与应用，２０１１，４７（１２）：１７７・１７９．　【６】Ｍａｋ　Ｋ　Ｌ，Ｐｅｎｇ　Ｐ，Ｙｉｕ　Ｋ　Ｆ　Ｃ．Ｆａｂｒｉｃ　ｄｅｆｅｃｔ　ｄｅｔｅｃｔｉｏｎ　ｕｓｉｎｇ　ｍｏｒｐｈｏｌｏｇｉｃａｌ　ｆｉｌｔｅｒｓ［Ｊ］．Ｉｍａｇｅ　ａｎｄ　Ｖｉｓｉｏｎ　Ｃｏｍｐｕｔｉｎｇ，２００９，２７：　［１３】Ｕｎｓｅｒ　Ｍ．Ｌｏｃａｌ　ｌｉｎｅａｒ　ｔｒａｎｓｆｏｒｍｓ　ｆｏｒ　ｔｅｘｔｕｒｅ　ｍｅａｓｕｒｅｍｅｎｔｓ［Ｊ］．　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓ，１９８６，ｌ１（１）：６ｌ一７９．　［１４】Ｆｕｋｕｎａｇａ　Ｋ．Ｓｔａｔｉｓｔｉｃａｌ　ｐａ￣ｅｍ　ｒｅｃｏｇｎｉｔｉｏｎ［Ｍ］．２ｎｄ　ｅｄ．Ｓａｎ　Ｄｉｅｇｏ，　ＣＡ：Ａｃａｄｅｍｉｃ．１９９０．　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

一种数据本地化存储与处理系统