基于全域联动的元脑服务器能效优化方案解析
元脑InManage智能管理系统近期实现系统性突破,通过深度融合IT设备管理与动力环境监控两大体系,构建覆盖数据中心环境参数与服务器核心运行指标的全域数据整合网络。该系统可基于服务器芯片级温度感知数据,实现从部件散热、整机负载到制冷系统流量分配的动态闭环控制,确保服务器在25-30℃黄金温度区间稳定运行,成功实现风冷系统能耗降低15-20%,液冷系统二次节能10%,全面推动数据中心绿色转型。
️数据中心运维管理核心难题 两套系统不互通,运维粗放能耗高
据国际能源署(IEA)报告数据显示,2024年,数据中心约占全球电力需求的1.5%,即415太瓦时;到2030年,数据中心的用电量将增长一倍以上,达到约945太瓦时。作为能耗大户,数据中心的能耗主要来源于IT设备和制冷系统。其中,IT设备作为数据中心的核心,能耗占比最高达40%-50%;其次是制冷系统,能耗占比约30%-40%。
在传统运维管理模式下,数据中心节能降耗主要依赖于两套管理系统:
■ 一是IT 基础设施管理系统,主要负责服务器等IT设备的节能。该系统依托带外管理技术,通过BMC实时采集服务器功耗、出/入风口温度、气流等能耗信息,分析服务器运行状态与能源使用情况,对风扇转速、CPU 频率等进行调控,实现服务器能耗最优;
■ 二是动力环境监控系统,主要负责制冷系统、供配电系统的能耗优化。动环监控系统利用遍布数据中心的温湿度传感器、电流电压传感器等监测设备,实时采集环境、动力设备、制冷设备等运行数据,基于数据分析结果预测设备故障和环境变化趋势,联动调控空调、电源、冷却塔等非IT设备,提高其能源使用效率。
但由于IT和动环两套系统独立运行,数据不互通,动环系统只能收集到机柜级的数据,而无法获取更精细的服务器节点级、芯片级数据,导致冷量和服务器功耗的贴合度低,对制冷系统和供电系统的运维管理粗放,无法依据服务器功耗进行精准调控,从而影响数据中心整体的能耗优化。
更重要的是,传统粗放式运维调控手段难以实现温度的精准把控,不稳定的服务器温度将显著影响设备性能与寿命。据了解,一般服务器机箱内部温度维持在 25-30℃区间是最适宜的状态。当服务器长期处于过热状态,将会加速电路老化、芯片和风扇损坏,提升硬件故障率,最终大幅缩减服务器整体使用寿命,且会导致内存与存储设备性能下降,数据读写错误率上升,影响系统的高效稳定运行。
️元脑InManage全新升级 双平台统一纳管,能效与稳定性双提升
针对数据中心整体节能降耗和系统高效稳定运行的挑战,元脑InManage数据中心智能管理平台进行了全新升级,以“AI+一体化”为核心理念,深度融合IT基础设施管理平台与动力环境监控平台,通过全域统一纳管、AI精准调控两大创新突破,保障数据中心绿色节能、高效稳定运行,让服务器始终稳定运行在最适宜的温度下。
// 全域统一纳管,让服务器始终稳定运行在最适宜的温度下
全新升级的元脑InManage数据中心智能管理平台实现跨系统深度集成,融合IT基础设施管理与动力环境监控两套系统,构建涵盖温度、湿度、风速、流速等环境参数,以及服务器功耗、运行状态等关键数据的全域数据池;并通过多维度数据采集模块实时收集、清洗和融合,确保了数据的准确性和及时性,实现核心参数的毫秒级采集与关联分析,助力实现从服务器风扇、整机功耗调优,到数据中心空调、冷量、流量等的全方位精准调控,避免了传统运维管理模式中由于数据单一和滞后导致的控制误差和延迟,大幅提升系统稳定性,运维效率翻倍。
aspcms.cn在IT和动环系统打通后,通过跨系统智能联动,可直接监测服务器 BMC数据,整合部件级数据和环境信息,形成“部件温度-整机负载-综合环测-自动指令-冷量供给”的闭环控制链路,一旦捕捉到温度异常,立即结合服务器负载状态及环境温度,调节风量和冷却液流量,实现毫秒级响应,提升控制精度和实时性,让服务器始终稳定运行在最适宜的温度下。
// AI精准调控,数据中心更节能
在实现IT和动环双平台统一纳管的基础上,升级后的元脑InManage数据中心智能管理平台可通过对制冷系统、供电系统等同步进行AI精准调控,实现非IT设备的能耗优化,从而推动数据中心整体节能降耗。例如,在风冷数据中心里,该平台作为智能中枢,实时汇聚服务器、空调、配电柜等设备的运行数据,以及温湿度、气流压力等环境参数,借助AI算法对海量数据深度分析,精准预测设备负载变化与温度趋势,一旦发现潜在热点风险,平台立即联动调节空调风速、风向与制冷量,实现“以需供冷”的动态平衡,保障系统稳定运行的同时,可降低能耗15-20%以上。
针对液冷数据中心,该平台实现了动态流量优化,相比于传统运维的分散式数据分析模式,该平台可基于服务器芯片功耗与液冷回路压力数据,通过采用多目标优化算法,精确控制系统冷却液流量,计算出系统在不同运行环境下的最优流量分配方案,通过AI精准调控,流量利用率提升50%,液冷系统再节能10%。
流量动态调控界面
在智能化运维新趋势下,元脑服务器管理平台通过构建全链路闭环控制体系,成功实现从芯片级散热到机房级环控的精准调节。该方案突破传统运维数据孤岛,通过AI驱动的动态流量分配算法,使液冷系统流量利用率提升50%。随着AIOps能力的持续演进,该平台将持续赋能数据中心智能化改造,为算力基础设施的可持续发展注入新动能。