近期已知NVIDIA Vera Rubin机柜(NVL72)采用全液冷方案,其中二次测45℃温水入冷板,且流速翻倍。实际上,前期NVIDIA公司已经研究探讨了直接芯片(Direct-to-Chip, DTC)液体冷却系统在高流速运作下的长期可靠性问题。以下为在DTC数据中心中,当冷却液流速超过行业建议标准(ASHRAE建议的1.5 m/s)时,其对冷却回路组件(特别是铜冷板和EPDM软管)的冲蚀(erosion)和材料降解影响研究解读报告。



数据中心直接芯片液冷高流速效应

NVIDIA Corporation

1. 研究背景与动机

  • 背景:随着高性能计算和AI的发展,数据中心的功率密度急剧上升,传统的风冷已无法满足需求,直接芯片液冷(DTC)成为主流解决方案。
  • 问题:为了获得更高的散热效率,需要提高冷却液流速。然而,ASHRAE建议流速限制在1.5 m/s以内,以防止材料冲蚀和腐蚀。目前缺乏关于超过此流速限制时,常用材料(铜和EPDM)长期可靠性的实验数据。
  • 目标:评估在高流速(超过1.5 m/s)和模拟真实工况下,铜制微通道冷板和EPDM软管的冲蚀特征及冷却液的化学变化。

2. 实验方法设计

  • 测试平台:构建了一个闭环测试系统(Thermal Test Vehicle, TTV),模拟500W GPU的热负载。除铜制微通道冷板外,回路中其他部件(热交换器、接头、储液罐等)均采用不锈钢316制造,以确保铜离子的来源单一,便于分析。
  • 实验条件:
    • 冷却液:25% 丙二醇(PG-25)混合液。
    • 工况:入口温度保持在45°C,持续运行150天。
    • 流速:倒钩入口处流速约为 2.62 m/s,软管内流速约为 1.74 m/s,均超过ASHRAE建议的1.5 m/s。
  • 分析手段:
    • 热/水力性能:监测热阻(Thermal Resistance)和压降(Pressure Drop)变化。
    • 化学分析:每30天取样一次,使用ICP-MS检测铜含量,并监测pH值、电导率、浊度和缓蚀剂浓度。
    • 表面表征:实验前后使用光学显微镜和扫描电子显微镜(SEM)观察铜和EPDM的表面形貌。

3. 主要研究结果

A. 热与水力性能

  • 热阻:在150天的测试中,冷板的热阻保持稳定,波动微乎其微(变化小于0.001 °C/W)。泵更换导致的流量微调引起了轻微变化,但未发现因冲蚀导致的热性能下降。
  • 压降:压降在整个测试周期内保持一致,未出现显著增加。这表明微通道内部几何结构没有发生严重的堵塞或明显的物理侵蚀改变。

B. 冷却液化学性质变化

  • 铜含量:铜离子浓度从初始的0.141 ppm上升至最高0.372 ppm,随后略有下降并稳定在0.248 ppm左右。尽管有铜析出,但整体浓度仍低于1 ppm,处于可接受范围内。
  • 浊度(Turbidity):浊度显著增加,从初始的1 NTU上升至实验结束时的 34 NTU,表明冷却液中颗粒物或降解副产物随时间积累。
  • pH值:呈现缓慢下降趋势,从8.5降至8.2,表明冷却液碱度轻微降低。
  • 缓蚀剂:浓度波动较小,保持相对稳定。

C. 材料表面形貌分析(关键发现)

  • EPDM软管:光学显微镜和SEM显示表面略有变粗糙,孔隙中有填充物,但未见明显的降解或失效迹象,材料完整性良好。
  • 铜冷板:
    • 微观腐蚀/冲蚀:与基准样品相比,经受2.62 m/s流速冲击的铜表面在SEM下显示出大量的凹坑(pits)、空隙和表面粗糙度增加。
    • 氧化与变色:微通道翅片表面出现了变色和氧化迹象(彩虹色干涉纹)。
    • 结论:虽然宏观性能未衰减,但微观层面已出现加速腐蚀或冲蚀机制的早期迹象。

4. 结论与启示

  • 系统稳定性:在流速高达2.62 m/s的条件下运行150天,系统未发生灾难性故障,流体质量和热性能未见显著恶化。
  • 潜在风险:尽管EPDM表现良好,但铜冷板表面的凹坑(pitting)现象揭示了在高流速下长期运行的可靠性隐患。这表明流速增加确实引发了微观层面的材料损伤,虽短期内不影响性能,但可能影响长期使用寿命。
  • 未来工作:需要进一步研究侵蚀机制的根源,并探索先进涂层或替代材料以提高抗冲蚀能力。

5. 通俗解释

这项研究就像是测试一辆赛车在超速行驶(流速 > 1.5 m/s)下的耐久性。

  • 发动机表现(热性能):依然强劲,没有过热或动力下降(热阻和压降稳定)。
  • 机油状况(冷却液):稍微变脏了一点(浊度上升),多了一些金属碎屑(铜离子),但还能正常润滑。
  • 零部件磨损(表面分析):虽然车还能跑,但在显微镜下检查气缸壁(铜冷板)时,已经发现了微小的坑洼和划痕

结论是: 现在的速度虽然能跑完这一程(150天)且性能不减,但这些微小的损伤暗示着如果一直这样超速跑下去,未来可能会有爆缸(泄漏或失效)的隐患。