在当今动态的技术环境中,云服务提供商(CSP)、托管服务提供商(MSP)、软件即服务(SaaS)提供商和企业私有云运营商等服务提供商在现代数据中心面临着无数挑战。
构成现代数据中心及其高效运营方式的庞大技术格局正在迅速演变,成本管理迅速成为所有服务提供商永恒关注的问题。下面概述了CSP扩展现代数据中心的五个优秀实践。
在过去的三十年里,数据中心的产出持续增长。这种增长是由对人工智能服务器技术的快速增长的需求推动的;然而,环境可持续性这一持续存在的问题仍然迫在眉睫。包含最新CPU和GPU的新服务器正迅速接近空气冷却的极限,这将需要一种新的液体冷却方法,用于使微处理器和加速IM电竞,IM电竞在线入口器在设计极限内运行。此外,如果数据中心的电力预算已成为一个持续存在的问题,CSP应考虑使用液体冷却来降低数据中心的整体电力使用效率(PUE),并尽量减少HVAC冷却功率。
许多数据中心的功耗预算为每机架10千瓦至12千瓦,这对于一整机架的服务器、GPU服务器和存储系统来说非常具有挑战性。针对AI优化的新系统每台服务器可能消耗高达10kW的功率,从而使每机架的功率增加高达100千瓦。经过适当测试的液体冷却解决方案允许更高密度的服务器和GPU加速的服务器;外部热交换器比更传统的HVAC冷却效率高得多。在机架交付之前,必须规划液体冷却基础设施。与一家在机架级液体冷却方面经验丰富的公司合作对于高效的数据中心至关重要。
在技术领域保持不变的最大优点是增长。尽管如此,随着新技术和改进的引入,等待最新和最伟大的技术已被证明是一种徒劳的策略。能够战略性地规划和考虑关键的技术转型,并实施升级或迁移策略,可以最大限度地为买方带来利益。
此外,服务的扩展和技术的同步增长并不总是与人员和资源的增加相关。CSP必须与可靠的供应商合作,该供应商提供经过预先测试并组装到具有正确软件栈的机架中的尖端服务器、存储和网络解决方案。这种关系可以帮助缓解数据中心带来的一些挑战,从而更快地部署新服务或增强现有服务。
为了支持成本管理问题,采用新技术可以以较低的成本提高性能。例如,根据所需的服务级别协议(SLA)、代码库和矩阵处理级别,AI工作负载可以在CPU或GPU上完成。一些工作负载可以从CPU移动到辅助数据处理单元(DPU),DPU同时充当网络接口和数据处理单元。
然而,一些工作负载将受益于使用现场可编程门阵列(FPGA)的定制方法。CXL 2.0(Compute Express Link)的引入在内存层次结构中提供了另一层,直接连接在DRAM下方,但在SSD上方。此外,这实现了池内存的概念,可以灵活地分配给给定系统上的一个CPU,并缓解了直接连接到CPU但未完全利用的滞留内存的问题。这些新技术可能有利于预期服务的工作负载和软件栈。在大规模部署之前,在概念验证(POC)环境中测试新技术也很重要。与硬件合作伙伴合作,利用这些新技术进行早期POC测试,是获得竞争优势的关键。
虽然最初的对话可能是关于为所需的工作负载获取哪台或哪些服务器,但对话将很快转向以机架级集成为中心的对话。随着站点机架数量的增加,了解整个数据中心的工作原理和局限性至关重要。数据中心必须被视为一个整体,从冷通道和热通道的分离、强制空气冷却、冷却器和风扇的尺寸,一直到配电。在开始时必须考虑冷却技术的讨论,因为数据中心的物理基础设施将根据CSP对空气或液体冷却的选择而有所不同。
要准确评估当前数据中心的效率,请使用仪器测量CPU、存储和网络利用率。在集群级别也有工具可以做到这一点。这些工具可以提供有价值的信息,说明现有瓶颈发生在哪里,以及过度或不足利用的情况不是更优的。此外,还可以测量CPU和服务器的温度,这可以在导致故障的问题之前发现潜在的问题。
云提供商的数据中心很可能会同时被许多客户使用,因此,需要一个作业管理调度器来保持数据中心运营的效率。在资源有限的情况下,并非所有对计算、存储或网络的请求都能得到满足,随着所需资源变得更加可用,或者直到可以获取额外的软件,作业或应用程序将不得不被调度或适应。
在管理供应链方面,据说识别管理供应商中的“最薄弱环节”是更优选择。虽然我们不提倡供应链等级制度或种姓制度,但简化关键供应商的供应链是订购、安装和支持的理想优秀实践。能够提供服务器、存储、网络、第三方软件解决方案和机架集成,甚至可以将独特的第三方硬件集成到单个系统中的单一供应商是理想的。
几乎所有大型原始设备制造商(OEM)都将其产品的制造、设计和供应链外包给原始设计制造商(ODM)和联系制造商(CM),这是一个行业秘密。原始设备制造商主要专注于营销和销售这些产品。与一家设计其所有产品(从机箱到IM电竞,IM电竞在线入口主板以及电源)并在地理位置靠近客户的地方制造的公司合作是有价值的。从客户的角度来看,这意味着数据中心供应商可以更加灵活,提供更快的交付时间,并通过更少的中介、更快的运输和规模经济最终降低总体拥有成本。
就像在数据中心采用新技术一样,将所有鸡蛋放在一个供应商篮子里可能是一个有风险的决定。选择数据中心解决方案提供商不是在职学习或与更专注于自己的托管服务或制造笔记本电脑的公司合作的时间或地点。
数据中心作为CSP的高效运营需要非常细致的规划以及与全方位服务提供商的密切工作关系。有几个决定会影响数据中心的启动时间、SLA和整体效率。无论是设计和实施公共共享数据中心还是本地数据中心,都要仔细规划,自学并了解服务器和机架技术,并探索将使数据中心在未来几年保持运行的新技术和解决方案的广阔前景。