智算基础设施挑战与突破
随着人工智能、大数据、云计算等技术的飞速发展,算力需求呈爆炸式增长,也对算力基础设施提出了前所未有的挑战。高负载、高能效、高可用性,已成为对当前智算中心的基础要求。
“智算中心相对于传统数据中心来说,要满足集中化、高效化和快速化三个特点。”参加京东云“疯狂星期四”直播的嘉宾,中国电子工程设计院数据中心事业部设备所所长沈晓朋表示,随着AI大模型的竞争日益激烈,智算中心的建设需求与日俱增,服务器功率密度也逐年上升,这不仅要求基础设施能够快速响应,更要在能效、可靠性等方面达到新的高度。
京东云阿尔法智能算力模块
京东云在此次直播中重点展示了其阿尔法算力模块,该模块针对高功率服务器集群量身定制,通过优化电力供应和散热系统,实现了显著的能效提升。京东云技术专家介绍,阿尔法算力模块通过风墙精密空调、热通道封闭与京东云智能京维平台三管齐下,实现了模块能耗降低30%的目标。
快速交付也是阿尔法算力模块的一大特色。在确保服务器大幅降低能耗的同时,这种模块化设计可以显著加快部署速度。据介绍,从需求确认起仅需35天,阿尔法算力模块即可完成在工厂的预制,并在10天内交付给客户,整体部署可以控制在45天内完成。
液冷技术的绿色革命
随着算力密度的不断提高,液冷作为一种更高效、节能的散热技术走入了行业视野。作为一种新兴技术,虽然具备多重优势,但在应用普及的过程中,还面临着用户的诸多担忧。
沈晓朋认为,业内对液冷应用的担忧主要集中在几个方面:首先是标准不统一带来的维护、迁移难题;其二是传统风冷数据中心的液冷化改造困难的问题;其三是部分液冷技术采用的冷却液泄露后会带来一定的环境危害;最后沈晓朋表示,液冷系统的部署成本和投资回报比,也是当前用户重点关注的问题之一。
京东云事业部AIDC业务部硬件架构专家介绍,针对这些行业普遍担忧的问题,京东云推出了自研液冷服务器,通过模块化设计和高可靠性材料的应用,成功解决了传统液冷方案的诸多痛点。
京东云自研液冷服务器经历了京东集团内部各业务的严苛考验,可以实现PUE达到1.1以下,同时支持不同算力平台的CPU、GPU核心750瓦以上的散热需求。另外通过模块化的设计,可以直接替换传统的风冷散热方案。
对于部署成本问题,京东云技术专家表示:“液冷服务器在前期硬件投入上略高于传统风冷方案,但通过长期运营中电费、运维成本的节省,只需要15个月左右就能实现总体成本的平衡,全生命周期可以实现5%左右的成本降低。”
京东云液冷服务器
京东云还通过现场直播,对自研液冷服务器进行了一场“拆机秀”,由硬件工程师现场拆解并详细展示液冷服务器的每一处细节。采用模块化设计的京东云自研液冷服务器拆卸维护简便,包括电源、散热器、网卡、进水、出水管等,均可以通过标准件进行直接替换。
服务赋能智算生态
除了硬件层面的创新外,在运维服务方面,京东云也屡做创新,为智算业务的发展提供了强劲动力。为更好地运维智算中心,京东云自研了智能京维平台,通过引入先进的人工智能技术,内置多个模块帮助工程师来管理、维护系统,实现对数据中心内部数千设备的高度自洽管理和自运维。
京东云智能京维平台内置节能宝模块,利用大数据分析和AI算法,对制冷系统进行精细化管理,优化设备运行逻辑,确保冷机、水泵等设备在最高效率下运行。这种智能化的运维方式不仅显著降低了PUE值,减少了能耗,还提高了数据中心的稳定性和可靠性。例如,京东云廊坊数据中心在节能宝的助力下,年均PUE降至1.19,实现了能效的大幅提升,为企业节省了巨额电费开支。
面向越来越多的智算服务需求,京东云则推出了基于高性能、低延迟的裸金属服务器的MaaS(Model as a Service)服务。通过容器化的形式,京东云将GPU算力以及预装模型、辅助工具等统一提供给客户,帮助客户更好的训练自己的大模型。
京东云的裸金属服务不仅适用于大型企业和科研机构,还通过灵活的配置和定价策略,满足中小企业和个人用户的多样化需求。例如,其推出的GCS(GPU Computing Service)产品,以极低的成本提供了高性能的GPU算力服务,让更多人能够轻松体验AI技术的魅力。
京东云数据中心
随着算力需求的持续爆发和技术的不断进步,算力基础设施的重要性日益凸显。京东云凭借其在高效能算力模块、绿色液冷技术和智能运维平台等方面的创新实践,正逐步构建起一套领先行业的算力基础设施体系。未来,随着技术的不断成熟和市场的持续拓展,京东云的创新与探索,将推动整个行业向更高效、更绿色、更智能的方向发展。