你的位置:首页 > 新闻动态 > 公司新闻

数据中心基础设施现代化框架如何搭建?

来源: 2019/3/4 10:15:12      点击:
随着数据中心基础设施的长期运营超出其保修范围,其软件工具不再反映或展示实际情况,运营和维护(O&M)计划变得过时和/或人员不足,导致服务中断的风险显著增加。
  
  陈旧过时的数据中心必须实现现代化或将其IT外包给云计算服务和托管服务提供商,以最大限度地降低业务中断的风险。而其他没有实现现代化的数据中心无法从最近的技术进步中获益。这些改进使数据中心变得更简单、更高效、更易于管理,而且现在的运营成本更低。以下介绍如何实现数据中心设施现代化的简单四步框架。
  
  首先从定义设计和操作标准开始。然后将其用于执行识别风险和需求的差距分析。这种由施耐德电气解决方案架构师团队开发的方法,应该用于涵盖数据中心现代化的三个关键领域:(1)设备硬件(电气和机械),(2)软件系统,(3)操作和维护计划。
  
  保持IT系统运行取决于所有这三个领域。因此,在现代化项目中考虑所有因素至关重要。
  
  现代化框架的四个步骤
  
  遵循这些基本步骤有助于确保采用适量且有条理的方法来确定现代化的内容和方法,无论组织可能需要什么或在过程中处于什么位置。
  
  (1)制定设计标准
  
  首先要记录现代化项目的具体目标,这一点非常重要。在项目结束时,组织希望其数据中心能实现哪些功能?应该如何表现?以及需要实现什么样的目标?组织从更大的业务和IT目标开始是有用的。自从开始构建数据中心以来,这些很可能已经发生了变化。关键性和功率需求将会发生显著变化。
  
  在当今组织目标的背景下重新评估其需求将帮助确定各个事项。例如,真正需要什么级别的电气冗余,或者某个特定地点的运营团队人员配备级别应该是什么。每个关键领域的设计标准应该记录下来。例如,如果决定数据中心应满足特定的层级或关键性标准,那么应该在设计标准中记录具体满足这些要求所需的内容。确保组织获得所有主要利益相关方的支持,并了解IT外包战略是什么。配电和不间断电源的设计标准示例如文中的图表所示。
   
  配电系统和APCUPS供电系统的示例设计标准
  
  (2)基准性能
  
  通过明确详细记录组织希望达到的设计标准,下一步是评估数据中心在所有三个域中的当前状态。这涉及对基础设施设备及其互连进行物理调查。
  
  组织需要了解每个设备的工作年限、维护合同状态、负载与容量等。这意味着需要与设计和制造(O&M)团队沟通,并审查其程序方法和培训文档。企业不应该仅仅依靠图纸或书面报告。还应对照设备基准检查数据中心基础设施管理(DCIM)工具,以了解资产的软件映射及其互连与实际情况的匹配程度。使用设计标准文档作为记分卡来记录当前的实际情况。
  
  (3)确定差距并考虑备选方案
  
  在记录当前情况的情况下,下一步是确定差距,即当前的现实或性能不满足数据中心未来的需求。考虑并记录弥补每个缺口所需的内容。
  
  供应商和咨询工程师可能需要清楚地了解其选择以及它们的成本。这项工作将开始构成一个流程图,说明实现项目目标所需的时间、成本和人力。反过来,这可能会导致组织重新评估设计标准。而这是一个迭代过程。
  
  (4)优先考虑需求
  
  实际的实施项目升级和更换之前的最后一步是优先处理缩小差距所需的措施,以使数据中心达到设计标准中规定的性能水平。作为关键任务数据中心,所有差距都需要根据它们对IT持续运作所代表的风险程度进行评估。对于审计中发现的每个问题,组织必须了解其风险。
  
  显然,风险最大的差距会成为组织需要关注的重点之一。这种风险需要与成本、时间、对正在进行的运营可能造成的破坏,以及与其他被认为重要的目标(如能效目标)相平衡。
  
  需要注意的是,第三方供应商可以帮助组织,甚至对评估流程提供帮助。它们不仅可以简化并可能为组织加速流程,而且将从拥有和运营数据中心的经验中受益。此外,它们的独立性可能会对组织的数据中心设施中可能存在的风险做出更准确、公正的判断。
  
  识别并解决基础问题
  
  在创建设计标准和基准测试性能的过程中,组织可能会发现容易解决的问题,即涉及相对较少甚至没有资本性支出和实施时间的项目。当然,这些问题应该马上解决。人们经常看到的采取的实际行动包括:
  
  •电源:对过期的设备进行预防性维护(PM)服务,从UPS电源中移除未使用的电源模块,重新分配不平衡负载,纠正PDU/机架PDU分配中的错误,如果发现冗余规则被破坏等。
  
  •冷却:进行过期预防性维护(PM)服务,在机架上添加空白面板,堵塞高架地板上的孔洞,清除地板下空气通道中的障碍物,确保地砖位于正确位置,确保机架正确对齐等。
  
  •操作:更新/更正竣工图纸,确保分布操作流程(MOP)和应急操作流程(EOP)正确无误,并处在正确的位置,验证员工是否接受过应急程序的适当培训。
  
  •软件系统:检查并确保所有软件工具都具有资产、资源及其依赖关系的准确映射;检查警报阈值和通知策略。
  
  遵循并坚持这一框架将简化流程,并降低风险。它将通过专注于流程改进、硬件升级和替换来优化成本,这些措施可以减少可能对IT系统和应用程序最大影响的停机关键事件和故障。而且,新的业务需求可能意味着当今所需的基础设施可能比刚构建时所需要的要少得多。
  
  当组织将其与现代基础设施及其管理工具带来的可能效率增益相结合时,实现现代化的数据中心设施的实际总拥有成本通常低于组织的预期。