在过去的一年里,人工智能(AI)像数字复兴一样蓬勃发展,与20世纪90年代末互联网的快速变革性崛起相呼应。它以惊人的速度彻底改变了行业,重新定义了我们的日常生活,其影响将在未来几年内更加显著。2023年,对生成人工智能的投资达到252亿美元,几乎是2022年投资额的9倍,大约是2019年资金的20倍。
这种快速增长为数据中心公司提供了创新、扩展服务产品以及满足人工智能驱动的应用程序和企业不断变化的需求的机会。通过采用人工智能技术并相应地调整其基础设施和运营,数据中心在促进人工智能在各个行业的广泛采用和成功方面发挥着至关重要的作用。
然而,人工智能的整合也带来了一系列挑战。人工智能目前需要4.3GW的数据中心电力,预计到2028年将达到18GW。这一激增超过了当前数据中心电力需求的增长率,给容量和可持续性带来了挑战。人工智能要求数据中心不仅要扩展,还要从根本上改变其架构,包括专业的IT基础设施、电力和冷却系统。
为可持续的人工智能数据中心提供动力
到2028年,人工智能工作负载的增长速度预计将是传统数据中心工作负载的两到三倍,占所有数据中心容量的15%到20%。更多的工作负载也将开始向边缘用户靠近,以减少延迟并提高性能。
训练大型语言模型通常需要数千个图形处理单元(GPU)协同工作。在大型AI集群中,集群大小可以从1兆瓦到2兆瓦不等,机架密度从25千瓦到120千瓦不等,具体取决于GPU型号和数量。这些特性显著影响机架功率密度,给数据中心带来了巨大的基础设施挑战。目前,大多数数据中心只能支持约10至20千瓦的机架功率密度。
数据中心必须适应以有效和可持续地满足人工智能驱动应用程序不断变化的电力需求,因此优化物理基础设施以满足人工智能要求至关重要。从低密度配置过渡到高密度配置可以帮助应对这些挑战。与NVIDIA等技术提供商的合作,两家公司最近进行的高管简报强调了参考设计在加快数据中心高密度人工智能集群部署、推动边缘人工智能和数字孪生技术进步方面的关键作用。将人工智能集群添加到现有设施中的改装参考设计,以及专门为加速计算集群量身定制的新构建设计,可以支持各种应用,包括数据处理、工程仿真、电子设计自动化和生成式人工智能。
通过解决人工智能工作负载不断变化的需求,这些参考设计将为将NVIDIA的加速计算平台集成到数据中心提供一个强大的框架,从而提高性能、可扩展性和可持续性。
保持 AI 数据中心凉爽
AI 数据中心会产生大量热量,因此需要使用液体冷却来确保最佳性能、可持续性和可靠性。除 IT 基础设施外,冷却系统是数据中心的第二大能源消耗者。在使用密度较低的传统数据中心和分布式 IT 位置,冷却可占设施总能耗的 20% 至 40%。
液体冷却具有许多优势,包括更高的能源效率、更小的占地面积、更低的总拥有成本 (TCO)、增强的服务器可靠性和更低的噪音水平。
随着对 AI 处理能力的需求增长和热负荷增加,液体冷却成为数据中心设计中的关键要素。采用液体冷却解决方案可以满足各种需求,从空白空间解决方案到散热策略。有关液体冷却架构的白皮书等资源可以帮助数据中心公司应对系统设计、实施和运营考虑的复杂性。
AI 和数据中心为可持续未来而发展
AI 有可能优化能源使用,但它也引发了对能源消耗增加的担忧。加速计算推动了人工智能革命,使我们能够在数据中心基础设施中用更少的资源实现更多目标。
然而,评估人工智能对能源消耗和环境的更广泛影响至关重要。Gartner 透露,到 2027 年,80% 的 CIO 将拥有与 IT 组织可持续性相关的绩效指标。
根据 2024 年可持续发展指数,澳大利亚近十分之一的商业决策者已经在使用人工智能作为脱碳转型的资源。将人工智能与实时监控相结合可以将数据转化为可操作的见解,从而提高可持续性。研究表明,先进的能源管理功能可以通过优化电力使用和冷却效率来大幅节省公用事业费用。
数据中心的运营需要大量的能源,这对环境可持续性构成了挑战。优化能源效率、降低碳排放和增强运营弹性对于使数据中心能够负责任地运营、促进更可持续的未来至关重要。
对人工智能的需求和数据中心的发展是塑造数字格局的相互关联的要素。增加的工作负载,尤其是深度学习人工智能模型,需要大量的计算资源来训练。这需要能够支持人工智能工作负载性能要求的数据中心。
随着人工智能技术的进步,它将继续影响数据中心的设计和运营。虽然这些进步带来了效率和创新,但它们也带来了与能源消耗、电力和冷却系统相关的挑战。
人工智能的这种不懈进步只会继续下去,为了满足这些不断变化的需求,数据中心行业需要适应。
作者:Joe Craparotta,施耐德电气太平洋地区云与服务提供商副总裁
来源:千家网