消除意外中断,缩短任务时间,提高整体效率。

用例描述

整合环境

用于超过250个节点的数据处理HPC集群。

客户/合作伙伴类型
中国石油天然气集团公司(CNPC)。 石油和天然气工业,土地勘探和测量 数据处理。

公司和解决方案背景
中国石油天然气集团公司是世界500强企业,也是世界上最大的能源公司 之一,它在很大程度上依赖于石油勘探地球物理数据的收集和分析。 它 充分了解自然资源的重要性,重点关注可持续发展和环境保护,提供优 质的地球物理产品和服务。 为其运营提供动力的是一个HPC数据中心, 拥有超过3000台服务器,每台服务都连接到直接连接存储。

解决方案架构

要求和挑战


在数据中心的所有选定服务器上并行处理地球物理数据。 100或1000个节 点需要不间断地工作。 即使一个节点发生故障也可能导致重新加载部分或 所有任务作业。 硬件故障,特别是磁盘,在大规模、高密度集群中是不可 避免的,因为它们在计算期间密集访问数据。 为了最大限度地减少硬件故 障造成的中断,公司只能依靠新的和丰富的硬件来处理作业。由此导致硬件 利用浪费超过30%。

解决方案


通过Federator.ai 磁盘故障预测,HPC数据中心可以为所有作业可靠地选择合格的硬 件,而不会延迟服务交付。 与任务计划程序集成可防止在任务启动之前在有风险的节 点上加载作业,从而在作业生命周期内保证整个集群的运行状况。数据中心操作员在作 业之间执行硬件维护,以便为即将到来的任务准备服务器。 Federator.ai还保留了所有 主机和磁盘的性能指标,可用于跟踪任何时间点的异常性能模式。  

解决方案优势

通过消除任务重新加载,将数据处理时间缩短30%以上

通过减少冗余来节省资金,以便其他节点可用于活动生产任务

通过准确的磁盘数据预测老化的硬件, 不需要换掉陈旧但硬件健康的部分

通过将意外故障转换为计划事件,简化硬件管理和维护

Share