您的当前位置:首页正文

高性能分布式计算云平台解决方案

2021-09-25 来源:易榕旅网


高性能分布式计算云平台

解决方案

联智科技

2015年3月

高性能分布式计算云平台解决方案

版权声明

联智科技(北京)有限公司版权所有,并保留对本文档及本声明的最终解释权和修改权。

本文档中出现的任何文字叙述、文档格式、插图、照片、方法、过程等内容,除另有特别注明外,其著作权或其它相关权利均属于联智科技(北京)有限公司。未经联智科技(北京)有限公司书面同意,任何人不得以任何方式或形式对本文档内的任何部分进行复制、摘录、备份、修改、传播、翻译成其他语言、将其全部或部分用于商业用途。

高性能分布式计算云平台解决方案

免责条款

本文档仅用于为最终用户提供信息,其内容如有更改,恕不另行通知。 联智科技(北京)有限公司在编写本文档的时候已尽最大努力保证其内容准确可靠,但联智科技(北京)有限公司不对本文档中的遗漏、不准确或错误导致的损失和损害承担责任。

高性能分布式计算云平台解决方案

信息反馈

如果您有任何宝贵意见,请反馈:

地址:北京市海淀区苏州街维亚大厦907-908 邮编:100080

电话:+86 010-8260 8832 传真: +86 010-6298 0435 您也可以访问联智科技网站:www.clustertech.com 获得最新技术和产品信息

高性能分布式计算云平台解决方案

目录

版权声明 ............................................................................................................................................ 2 免责条款 ............................................................................................................................................ 3 信息反馈 ............................................................................................................................................ 4 目录 ................................................................................................................................................... 5 1. 2. 3.

概述 ........................................................................................................................................... 6 需求分析 ................................................................................................................................... 6 总体设计 ................................................................................................................................... 7 3.1 3.2 3.3

系统逻辑架构 .................................................................................................................... 7 性能测试 ........................................................................................................................... 7 CCMP产品介绍 ................................................................................................................. 8

系统构架 ................................................................................................................... 8

3.3.1 3.4

核心功能 ........................................................................................................................... 8

即插即用 ................................................................................................................... 8 兼容传统使用模式 .................................................................................................... 9 高度集成 ................................................................................................................... 9 丰富的应用模板 ........................................................................................................ 9 用户自助服务 .......................................................................................................... 10 完善的安全机制 ...................................................................................................... 10 全面监控,自动高可靠 ........................................................................................... 10 多级用户管理模式 .................................................................................................. 11 轻量级虚拟化及并行计算支持 ............................................................................... 11 分布式存储及并行文件系统支持 ............................................................................ 11

3.4.1 3.4.2 3.4.3 3.4.4 3.4.5 3.4.6 3.4.7 3.4.8 3.4.9 3.4.10 3.5

CHESS产品介绍 ............................................................................................................... 12

CHESS V4.0简介 ....................................................................................................... 12 CHESS V4.0架构 ....................................................................................................... 13 CHESS V4.0功能介绍 ............................................................................................... 14 CHESS V4.0优势 ....................................................................................................... 29

3.5.1 3.5.2 3.5.3 3.5.4

5

高性能分布式计算云平台解决方案

1. 概述

经过多年的发展,云计算技术已日臻成熟,相对于传统部署模式而言,其配置灵活、资源利用率高和节省成本的优势愈发显著。云计算解决方案通过对企业现有的硬件资源(包括计算服务器、存储、交换机和路由器等)和软件资源(各种操作系统、中间件、数据库及应用等)进行整合,形成统一资源池,为企业内部用户、外部中小企业及公众用户提供云计算服务,根据用户请求自动地管理和动态地分配、部署、配置、重新配置以及回收资源,大幅提高了资源利用率,降低企业的IT成本。

IT技术的发展,给各行各业带来了业务操作流程的自动化和信息化,使得企业内部产生了大量的业务数据。随着互联网尤其是移动互联网、物联网的快速发展,同时随着运营商、互联网公司不断推出移动互联网产品如应用商店、阅读、游戏、社区等移动产品,如何分析挖掘这些产品生成的海量数据,已成为运营商迫切需要解决的问题。

2. 需求分析

云计算技术的进一步发展,使得数据挖掘平台有了新的发展方向,也使得新一代的数据挖掘平台成为可能。传统云计算解决方案的关注重点是能够提供动态资源、虚拟化和高可用的计算平台,而分布式计算和并行计算需要解决的问题通常具有计算量大、IO吞吐量大、需要低延时网络等特点,虚拟化带来的额外的性能损失使得在传统的云计算平台上实现的分布式计算环境的实用性大打折扣。

为了能让用户在享受到云计算带来的便利性的同时,又能在云计算的环境下高效的实现分布式计算平台用来解决大数据处理等实际问题,联科结合在高性能、分布式计算领域十多年来的技术积累和在云计算领域的实际经验,在完全自主开发的CCMP云管理平台上整合了高性能和分布式计算平台,实现了虚拟化云计算环境和分布式计算环境的完美融合。在同一套硬件环境下,在实现传统意义上的云计算平台的同时,同时实现了常见高性能计算环境如MPI以及常见大数据处理分布式环境Hadoop的部署及管理。

6

高性能分布式计算云平台解决方案

3. 总体设计

3.1 系统逻辑架构

系统整体逻辑架构如图所示,

3.2 性能测试

采用业界标准的Linpack进行性能测试,结果如图所示。左侧为在云平台环境下的性能,右侧为物理机的性能,可见性能损失<1%。

7

高性能分布式计算云平台解决方案

3.3 CCMP产品介绍

联科开创性的提出了软硬件一体的解决思路,融合先进的高性能计算技术和云计算技术,将计算中心的服务器、存储和网络资源统一池化,打破传统的单个用户对物理资源独占的使用模式,同时将应用程序和操作系统以及硬件之间的强耦合关系进行解耦,并结合虚拟化技术,提高资源的利用率,快速的将传统的计算中心改造成智能化的动态高性能计算中心。

3.3.1 系统构架

平台功能构架图

3.4 核心功能

3.4.1 即插即用

软硬一体的管理设备内置以太网交换功能,使用时只需将纳入管理范围的服务器连接到管理设备,将服务器的启动方式设置从网络启动,重启服务器后,管理设

8

高性能分布式计算云平台解决方案

备即可自动探测到新服务器设备。管理设备支持不同厂家的异构服务器,只要求x86服务器支持从网卡设备启动。新的方案大大简化了系统管理员的部署工作,不管是在历史不同时期购入的旧服务器,还是全新购买的服务器,都不需要管理员针对不同硬件型号进行特殊安装设置,解决方案的硬件抽象层将自动屏蔽底层的细节和差异。

3.4.2 兼容传统使用模式

管理设备在接管计算中心的服务器时,默认不修改服务器的本地存储介质。通过这种方式,系统管理员可以自由的选择采用新的解决方案对所有的资源进行管理,或者沿用计算中心原有的分配策略。要将计算中心的使用模式恢复到原来的方式,只需将所有服务器重启通过本地硬盘引导即可。

3.4.3 高度集成

管理设备内置虚拟化软件,在探测到新服务器时,会自动对其引导并将虚拟化层推送下发,实现该资源的CPU和内存资源的池化。同时管理设备内置分布式并行存储模块,能将所有服务器的本地硬盘聚合虚拟化成一个大的存储池,自动处理数据的冗余备份,在实现计算性能的线性扩展的同时,实现平台读写性能的线性扩展。

3.4.4 丰富的应用模板

通过将常见应用程序的系统镜像内置到管理设备中,解决方案大大提升了应用交付的效率,避免了系统管理员为不同的用户对同一种应用进行反复配置的简单重复性劳动。结合联科在高性能计算和大数据处理领域长年积累的经验,该解决方案还内置了对HPC和Bigdata应用模板的支持,将HPC所需的并行环境如MPI,Bigdata

9

高性能分布式计算云平台解决方案

的典型环境如Hadoop预先配置成应用模板,方便用户的使用。另外,针对不同行业的专业用户,比如气象、流体力学,联科也可提供专业程序的应用模板。

3.4.5 用户自助服务

通过管理设备内置的用户web界面,使用者可以方便的用浏览器向计算中心申请所需的CPU、内存、磁盘以及应用模板资源。在接受到用户请求之后,系统会根据管理员预先设置的规则,自动在资源池中进行资源的动态分配和用户环境的自动配置,在所有操作成功后,将产生的系统的控制信息比如IP地址,访问方式,系统密码等返回给用户。在用户设定的使用期限到期后,系统会自动对所分配的资源进行回收,返回到资源池中。用户所申请的资源的整个生命周期的管理都由系统自动完成,无需管理员干预。同时系统支持针对用户和用户组的配额和计费管理。

3.4.6 完善的安全机制

系统从设计最初就将安全作为一项重要指标:通过X509证书验证机制,保证了系统内部通信的安全;通过内置防火墙和优化的过滤策略,系统在不需要硬件防火墙支持的情况下保证了内网和外网的隔离;通过内置的vlan支持,系统在不需要交换机支持的情况下保证了不同用户网络数据的完全隔离。

3.4.7 全面监控,自动高可靠

系统对管理中的实体资源和虚拟资源进行完整的状态监控和信息统计,并自动根据系统预先设置的规则采取对应的措施。与传统的计算中心需要在被监控的系统中安装对应的agent进行数据采集不同的是,虚拟化层可以直接从主机获取运行在上面的虚拟机的资源消耗信息,即使用户定制化了自己的操作系统,计算中心系统管

10

高性能分布式计算云平台解决方案

理员还是可以准确地对资源的使用情况进行采集和统计,从而实现对计算中心整体使用情况的全面掌握。当被监控的资源发生异常时,系统可以通过邮件或者短信的方式通知对应的用户和管理员。如果虚拟资源出现异常,而且配置有高可用性的属性,平台会自动保证该资源的持续可用。高性能计算云平台自身内建了HA的功能,可以实现管理数据在两个管理设备之间的事实同步,在活跃管理设备出现异常时,迅速切换到备份管理设备,保证整个服务的持续可用。

3.4.8 多级用户管理模式

为了解决组织架构比较复杂的机构的权限管理问题,系统支持多级用户管理的模式。全局系统管理员可以将用户划分为不同的群组,并根据具体需求如地理分布、资金分配、项目紧急程度等,设置群组对物理硬件及软件模板等资源的访问权限,并将特定权限下放给群组管理员。群组管理员在全局管理员分配的权限范围内,承担对群组内的用户的管理任务,比如用户账号信息的日常维护、用户资源请求的审批等工作,以减轻全局管理员的工作负担。

3.4.9 轻量级虚拟化及并行计算支持

利用联科独有的轻量级虚拟化技术,结合联科十多年来在并行计算领域的技术积累,系统在有效地避免了传统的虚拟化技术带来的计算和IO方面的极大性能开销的同时,将云计算的优点融入到传统的高性能计算环境中,解除了传统的静态的并行计算环境对应用的限制,极大的扩展了计算平台的应用范围。

3.4.10 分布式存储及并行文件系统支持

系统内置对分布式存储以及并行文件系统的支持,可将分布在不同服务器上的

11

高性能分布式计算云平台解决方案

存储资源如本地硬盘、后端盘阵等聚合成一个全局统一的存储资源池,并可根据用户具体需求,设置数据的冗余备份及条带化参数。同时,系统内置了对在高性能并行计算行业常见的并行文件系统、存储系统如Lustre,Panasas的支持。

3.5 CHESS产品介绍

3.5.1 CHESS V4.0简介

CHESS V4.0(Clustertech HPC Environment Software Stack联科高性能计算管理平台)是联科自主研发的高性能集群软件,可将松散堆叠的服务器变成一整套HPC集群系统,实现集群资源统一部署、管理、监控、调度和报表等,可大幅提高集群效率,简化集群管理。

CHESS V4.0由CUI(Clustertech User Interface联科用户界面)、集群管理模块、作业调度模块、集群监控模块、集群部署模块、集群报表模块组成。CUI是Web Portal基本模块,其他各个功能模块可以根据用户需求自由组合。选用CHESS及其相关服务,可以帮助用户部署操作系统,安装和调试集群软件、应用环境和应用软件,也就是提供从硬件设备之上,直到集群应用运行的一整套软件和服务。

CHESS V4.0新版特性主要有:

 独立的模块化设计,可根据用户需求自由组合;  可单独设置各个模块的用户访问权限;

 支持HA,避免单点故障带来的时间以及经济上不可逆转的损失;  调度、监控模块支持移动终端;

 通过Web界面,连接节点的SSH和VNC界面;

12

高性能分布式计算云平台解决方案

 丰富的报警信息,支持阈值自定义设置;  强大的文件管理功能;

 支持LDAP和NIS用户认证系统;  自定义应用模板;

 丰富的报表信息,可输出PDF,EXCEL等格式。

3.5.2 CHESS V4.0架构

高性能集群一般可以分为硬件层、系统软件层、集群软件层、应用环境层和应用层,CHESS及其相关服务涵盖了硬件层以上、应用层以下的三层,即系统软件层、集群软件层和应用环境层,这是保证HPC应用能在集群硬件设备上运行的基本条件,如下图所示:

在集群软件层,CHESS提供了集群部署、集群管理、集群监控、作业调度及管理、

13

高性能分布式计算云平台解决方案

集群报表等功能模块,同时提供Web Portal实现界面交互操作,另外支持HA功能,避免产生单点故障,影响集群系统运行。这些功能集中管理和监控Cluster系统中所有节点的资源,实现了整个集群系统的单一系统映像,使用户感觉只是在使用一台高性能计算机。

在应用环境层,CHESS的安装过程可选的HPC工具集包含并行命令、调试调优工具、消息传递库、数学库和编译器,具体内容如下表所示:

功能 并行命令 调试、调优工Intel Vtune ,Intel Trace Collector/Analyser, Total View 具 消息传递库 数学库 编译器 MPICH,MPICH2,MVAPICH,OpenMPI等 Intel MKL,Lapack,Scalapack,Goto,Blas… GNU编译器, Intel 编译器 dvt,dsh,pcp,distcc 工具 注:Intel编译器、Intel MKL、Intel Vtune、Intel Trace Collector/Analyser和Total View为商业软件。

3.5.3 CHESS V4.0功能介绍

3.5.3.1 CHESS Web Portal

CHESS Web Portal是CHESS的用户交互操作界面,是通过CUI (Clustertech User Interface联科用户统一登陆平台)将集群管理、集群监控、作业调度及管理、集群报表等各个功能模块的界面统一起来,实现了联科自主研发软件的统一登陆,提供用

14

高性能分布式计算云平台解决方案

户管理和权限管理功能,管理员可以给用户设置各个模块的访问权限。

3.5.3.1.1 用户管理

CHESS界面提供新建、编辑和删除用户(组)功能,可以设置用户根目录,确认用户隶属于的组别和修改密码等。 3.5.3.1.2 权限设定

在CHESS中,集群管理、作业调度、集群监控和报表模块的访问权限有管理员和用户两种,通过CHESS界面可设置用户访问权限,分配用户可用的功能模块。

3.5.3.2 CHESS集群管理

CHESS通过登陆浏览器(IE 10以上, Google Chrome ,Firefox等)界面,可实现现场和远程的集群管理和使用,包括节点管理、共享管理、镜像管理和日志管理等功能。

3.5.3.2.1 节点管理

在CHESS中把节点分为管理、存储、计算和登录四种角色,每种角色的节点可以根据角色的实际需要,启动相应的服务。用户通过Web界面可以查看节点的基本

15

高性能分布式计算云平台解决方案

信息,包括节点ID、主机名、MAC地址、IP地址、节点状态、节点是否可提交作业状态和节点类型等信息。

用户也可以通过Web界面对指定节点或所有节点做基本操作,包括开机、关机、设置镜像、恢复镜像、并行命令、拒绝作业、允许提交作业等操作。

另外,用户可以直接从Web界面上打开节点的VNC和SSH进行操作,无需其他第三方的登陆工具。 3.5.3.2.2 共享管理

CHESS提供共享管理功能,用户可通过Web 界面创建共享目录,编辑挂载点、删除共享目录等功能,无需后台命令实现共享目录管理,如下图所示:

3.5.3.2.3 镜像管理

CHESS可以通过Web界面创建集群节点(登陆节点/存储节点/计算节点)镜像,实现节点系统的备份和恢复功能。同时,系统可以同时保持多个不同或相同的镜像版本,从而实现多个镜像的切换。

16

高性能分布式计算云平台解决方案

3.5.3.2.4 日志管理

CHESS集群日志管理功能对并行命令、开关机情况、镜像操作进行记录,帮助系统管理员更加充分了解集群的使用情况。

并行命令记录:查看用户使用并行命令的输出结果;

开关机记录:查看用户对某个节点的开机、关机操作的时间、处理状态和处理结果;

镜像操作记录:查看用户创建镜像操作类型、时间、以及创建节点。

3.5.3.3 CHESS作业调度

3.5.3.3.1 作业调度管理

CHESS的资源管理和作业调度系统能合理、高效地管理系统中的所有软硬件资源和用户提交的作业,最大化的提升集群系统的吞吐率和利用率。系统管理员可以通过CHESS作业调度管理Web界面调整调度策略来优化资源的利用和减少作业的响应时间,系统管理员可清晰查看到每个节点CPU的使用情况,并且通过配置资源管理器以及调度策略对集群系统进行优化管理,使得复杂的集群资源管理和作业调度变得简单、统一、高效。CHESS通过Web界面管理的功能有(只有管理员用户才可操作):

 作业列表、队列列表和节点状态查询;  调整任务调度和资源配置策略;

 查看和修改服务器设置、队列设置和节点设置;

 管理用户提交的作业(杀掉作业、挂起作业和释放作业);

17

高性能分布式计算云平台解决方案

 配置调度策略,作业优先级、资源分配优化配置等;  用户/用户组策略设置;  资源预留配置。 3.5.3.3.2 作业提交

系统管理员为普通用户分配提交作业权限,普通用户即可通过Web图形界面提交作业。CHESS支持各种串行、并行应用程序以及应用程序自带的资源管理和调度。下图为CHESS的作业提交界面:

18

高性能分布式计算云平台解决方案

普通用户在提交作业时还可设置多种策略,指定节点提交作业,设置作业输出文件格式,设置作业运行时间以及作业开始、完成或退出时的提示警等信息。用户将作业提交时的策略可保存为模板,以后提交作业时相同的设置可直接调用模板,为用户提交作业提供极大的便利性。

19

高性能分布式计算云平台解决方案

3.5.3.3.3 作业调度策略

CHESS的作业调度系统支持任务间相关、自动文件传送(File Staging)、多个任务队列、多种系统分组、多种任务优先级策略和配置、多资源管理和任务高级预约、QOS (Quality of Service,包括服务对象和资源,以及功能访问控制)、可配置的节点分配策略、多种可配置的回填策略(backfill policies)、详尽的系统诊断(system diagnostic)以及各种资源使用情况的跟踪和统计。具体调度策略的配置有:

1) 队列设置:系统里面设置有不同的队列,一旦作业从调度系统进入相应的队列,将会被赋上该队列的配置属性(如作业运行所需的时间,内存等)。同时还可以控制某个用户可以提交到某个队列,或者某个队列只能使用某些节点资源等;

2) 节点属性配置:用户可以根据节点自身的特性为节点配置不同的属性,在混合异构的集群中(新老不同配置的机器共存或机器之间使用不同互联网等),可以把节点划分到不同的节点池中;

3) 作业优先级影响因子:包括作业来源(用户、组、队列、QoS)、公平共享(用户、组、队列、QoS的资源使用历史记录)、作业申请资源(节点数、CORE个数、内存等)、服务级别(作业已经在队列系统中排队的时间、作业排队的时间和作业所需时间的比值、因作业回填而比该作业先运行的优先级更低的作业的个数)、目标服务级别(到目标排队时间所剩的时间等);

4) 用户和用户组的属性配置:可以为不同的用户和用户组配置不同的优先级、不同的最大使用资源限制和所使用的QoS;

5) 作业回填:根据作业的各种属性,CHESS可以计算出系统中作业的起始和结束时间,有些高优先级的作业在某个起始时间之前无法获取所有资源而无法运行,

20

高性能分布式计算云平台解决方案

而在这个时间之前有可能会有某些计算节点处于空闲状态。采用回填策略,可以在不影响高优先级作业运行的前提下,将某些低优先级的作业回填到这些空闲节点,从而提高系统的使用效率。回填的策略包括:

a) Firstfit:扫描处于排队状态的作业,执行第一个能放入回填窗口的作业; b) Bestfit:扫描处于排队状态的作业,选取能够最大程度填满回填窗口的作业。当可用节点数量较充足的时候,尽量执行节点需求较多的作业;

c) greedy:这是一种较激进的回填策略,这种策略忽略之前有预约的作业,所以可能会影响到带预约的作业的起始执行时间;

6) 公平共享:当某个用户或者用户组在过去的某一段时间内(比如一周)使用了很多系统资源,在接下来的时间里,如果有其他用户向系统提交作业,这些用户作业的fareshare优先级因子会比该用户(之前使用过多资源的用户)的fareshare优先级因子高;

7) 资源预留:管理员可以在系统中设定一个时间值,从这个时间开始,某些计算节点在此时间段内将被预留给某些用户使用;

8) 作业抢占:内容包括取消当前某运行作业、暂停当前某运行作业、将当前某运行中作业Checkpoint(需要操作系统支持)、取消当前运行作业并将作业重新放入队列系统进行排队,抢占方式有:

a) 人工干预; b) 通过QoS的策略;

c) 基于抢占、保证优先级的回填。默认情况下,回填只有在不影响高优先级作业运行的情况下才会发生,但是经统计发现,很多作业申请的walltime时间大于实

21

高性能分布式计算云平台解决方案

际运行的walltime时间,也就是说,作业会提前完成执行。在基于抢占、保证优先级的回填的情况下,系统在回填窗口不足够运行低优先级作业的情况下允许作业回填,一旦发现回填的作业将会影响到高优先级的作业的执行,系统将该作业资源抢占,保证高优先级作业的执行。 3.5.3.3.4 应用模板

CHESS支持应用软件Web界面集成,用户可以把应用软件的自定义选项通过拖拽的方式在界面上做成模板,用户在提交作业时选择界面上的应用软件名称,将会显示该应用软件的特殊参数,点击【作业提交】按钮即可提交该应用软件的作业。用户还可在集群管理中直接打开VNC界面进行操作。

3.5.3.4 CHESS文件管理

CHESS提供文件管理功能,用户可直接管理集群系统上的文件,对文件进行新建、编辑、上传、下载、复制、剪切,粘贴,压缩、解压缩等功能,无需其他第三方文件传输工具和登陆工具,即可完成对Linux系统上文件的操作。使得没有Linux基础

22

高性能分布式计算云平台解决方案

的用户非常容易上手操作,能快速使用集群系统。如下图所示:

3.5.3.5 CHESS集群监控

CHESS提供丰富的监控信息,通过Web页面系统管理员可查看、了解集群系统的使用情况、集群拓扑结构、集群文件系统、集群节点详情、警报系统以及节点性能监控。

CHESS集群总汇可直观、方便的显示当前集群的信息,通过图形数据可展示各个时段CPU使用率、内存指标、交换分区使用量、网络流量、磁盘容量、负载监控、网卡接收或发送数据包字节速度等详细信息,方便系统管理员了解集群每个时间段的运行状态,同时还可监控集群内存总量使用率、磁盘总量使用率、以及CPU总数及在线节点等,如下图所示:

23

高性能分布式计算云平台解决方案

CHESS集群拓扑直观显示集群的拓扑结构,集群网络交换机的拓扑结构,以及每个网络交换机的名称、IP、网络交换机是否在线状态等信息,网络管理员可通过Web界面对机房网络进行监控。

CHESS监控节点详情能够方便、快捷的获取当前集群每个节点运行状态的信息,使管理员方便地进行集群系统的维护和管理。图形界面中的服务器摆放位置与真实集群环境中服务器的摆放位置相同,可显示某个节点负载情况以及节点是否开关机,同时当鼠标移动至某个节点时将会出现提示信息框,显示该节点的CPU数量、主频和内存总量等信息,如下图所示:

24

高性能分布式计算云平台解决方案

CHESS除了监控集群系统的状态,系统管理员可设置CPU、内存等参数的阈值,还可以检测集群系统中的非正常情况,对于系统节点失去连接的信息或超过某些参数所设置的阈值,会进行报警统计,如下图所示:

25

高性能分布式计算云平台解决方案

3.5.3.6 CHESS集群报表

CHESS报表系统为用户提供详细、丰富的数据资源统计功能,包括系统资源使用统计报表,账单收费报表以及记账设置。 3.5.3.6.1 资源统计报表

CHESS集群报表可在总览页面中监控集群已完成作业情况、CPU使用率、作业使用CPU核小时以及作业运行CPU运行时间,如下图所示:

26

高性能分布式计算云平台解决方案

详细资源报表统计中用户可查看作业统计报表、CPU和内存资源使用报表、本地或共享存储使用统计报表等信息,报表可按照用户/队列使用时间(按照小时/日/月)进行数据的统计从而生成报表,并可选择PDF/HTML/EXCEL三种方式导出报表。 3.5.3.6.2 收费报表

收费报表可查看用户计算作业选择起始和结束时间来统计此时间段内用户或者

27

高性能分布式计算云平台解决方案

队列对CPU资源的使用情况和费用合计,也可详细到每个用户中的计算每个作业的起始和结束时间后对CPU资源使用生成详情计费报表进行数据查看,或者通过PDF/HTML/EXCEL三种方式导出报表。 3.5.3.6.3 记账设置

CHESS集群报表可设置计费功能,管理员可设置每核的费率为元/小时进行计费统计。

3.5.3.7 计算资源登录控制

在高性能服务器系统中,只有通过作业调度系统提交的作业,才能被调度系统监控,从而使整个集群的资源得以控制和更合理的利用。而有些不按照要求,通过交互式方式提交作业的客户,调度系统监控不到该节点上有作业运行,而认为该节点的资源是空闲的,会继续在该结点上运行作业,从而导致计算资源冲突或者交互式应用无法正常运行。

为了避免上述情况的发生,CHESS根据用户需求开发了计算资源登录控制功能,普通用户无法直接登录计算节点,只有通过作业调度系统提交作业的用户,才可以登录计算节点以及相关操作。从而防止因用户不按照规定使用而导致的集群资源失控,使得集群资源可以更有效的利用。

3.5.3.8 无盘集群

针对一些用户使用的无盘集群系统,CHESS提供了无盘集群的解决方案,在无盘集群系统中,管理节点配置好相应的服务,计算节点通过网卡启动操作系统,因此不需要硬盘上安装计算节点的操作系统。计算节点之间通过高性能的并行文件系统,

28

高性能分布式计算云平台解决方案

从而为每个计算节点提供高性能的读写能力。

3.5.4 CHESS V4.0优势

CHESS是联科专为整合HPCC组件而开发的软件架构,为软件组件的集成和更新、HPCC的方便使用及其高效的配置、维护和升级提供了一个完整的环境。CHESS高性能计算管理平台具有以下优势:

 B/S架构图形界面,支持中英文界面,中英文界面一键切换

B/S架构网络模式,采用Web浏览器客户端,简化客户端电脑负荷,减轻了系统维护与升级的成本和工作流,降低了用户的总体成本(TCO)。

 独立的模块化设计,可根据用户需求自由组合,可单独设置各个模块的用

户访问权限,严格控制系统管理员和普通用户之间的功能权限。

采用模块化设计用户可根据集群的使用选择购买的模块,购买方式灵活;管理员按照模块给用户分配功能以及权限或者可按照使用的功能选择具有此功能的用户进行权限分配。

 快速自动部署整个集群系统

高性能计算集群环境中,节点众多,操作系统,并行环境,编译器,应用软件部署复杂,CHESS集群管理软件可统一自动部署整个集群系统,数十节点几小时内便可完成部署。

 支持HA,避免单点故障带来的时间以及经济上不可逆转的损失 管理节点支撑的整个集群的调度、监控、作业管理等任务,管理节点连续性变得非常重要,CHESS集群管理软件支持管理节点HA,采用Active-Standby方式,确保

29

高性能分布式计算云平台解决方案

管理节点使用的连续性。

 通过Web GUI实现用户和组的集中管理,实现硬件监控,配置资源管理和

任务调度程序参数,实时察看任务状态,实时监控CPU负载、内存使用率和网络流量等状态

 根据用户要求灵活订制主机名(hostname)  通过CHESS可直接调用节点SSH、VNC等功能

CHESS集群管理功能,可通过Web界面使用SSH远程登陆会话的方式登陆每一个节点,或者使用VNC远程控制工具。

 系统备份和恢复节点到默认设置

支持镜像制作,与镜像恢复功能,确保节点宕机后可快速恢复节点的系统以及应用。

 按角色管理集群节点

集群中包括管理节点、计算节点、I/O节点、登陆节点等节点角色,通过CHESS集群管理功能一键切换每个节点的角色,比如,I/O节点与计算节点的功能可以通过CHESS进行转化,原有的I/O节点可加入计算节点,进行作业计算。

 强大的文件管理功能

CHESS文件管理功能,通过Web界面可对Linux系统使用下的文件进行浏览、上传、下载、在线编辑、新建、压缩、解压等操作操作,方便用户文件管理尤其是作业脚本的管理。

 支持LDAP和NIS用户认证系统  计算资源登录控制

30

高性能分布式计算云平台解决方案

CHESS根据用户需求开发了计算资源登录控制功能,普通用户无法直接登录计算节点,只有通过作业调度系统提交作业的用户,才可以登录计算节点以及相关操作。从而防止因用户不按照规定使用而导致的集群资源失控,使得集群资源可以更有效的利用。

 智能化任务调度,实现资源预留,任务回填,动态优先级和集群分区等功

 图形界面提供针对用户的应用软件特有的提交界面,可自定义应用模板 CHESS作业提交可自定义应用模板,采用拖拽式的编辑,用户可根据程序或者使用 习惯进行自定义,更好的与应用程序相结合。

 丰富的报警信息,支持阈值自定义设置

提供页面报警、邮件报警等多种报警方式,系统管理自定义报警阈值,例如CPU温度、CPU使用率、内存使用率、磁盘使用率等参数。

 全面的错误告警和日志  完备的说明文档

为用户提供安装文档,CHESS管理员手册,CHESS用户手册,帮助系统管理员以及普通用户尽快的熟悉产品的使用。

 支持用户定制化开发

 调度、监控模块支持移动终端

 丰富的报表信息,可输出PDF,EXCEL等格式

CHESS报表系统提供丰富的报表数据,按照时间以及用户或队列统计完成作业数量,CPU使用情况,作业运行时间,硬件资源使用统计,以及收费统计生成丰富的

31

高性能分布式计算云平台解决方案

报表数据,并且可生成PDF、EXCEL文档。

总结起来,CHESS具有如下特点:  功能全面  易使用  高可靠  可扩展  可订制

32

因篇幅问题不能全部显示,请点此查看更多更全内容