“ 本工作表述比较晦涩,主题中高功率其实直接呼应内容关键词“处理水”,大概率NVIDIA在暗暗尝试将二次侧冷却液更替为纯水。换言之,英伟达已经意识到应对GPU日趋高功率的单相冷却挑战(Rubin系列流量已经翻倍,但有冲蚀问题)英伟达 (NVIDIA):面向NVL72机柜的液冷高流速变革影响,PG25有必要向纯水更新换代,以在相同流量及流速前提下获得更大换热能力及更佳设备运行性能。然而在多现实因素限制下,这又引起了微生物生长问题。前期和 Pyxis 周总交流,认为在冷却回路里根据以后液冷趋势及实际问题嵌入匹配的生物检测器,以实现对工质的主动调控、维护,将是一个与时俱进的现实需求。”














高功率液冷数据中心混合冷却液生物分析
NVIDIA
1. 研究背景与动机
- 液冷趋势与风险:随着数据中心向高功率直接芯片液冷(Direct-to-Chip)转型,冷却系统的可靠性至关重要。虽然液冷能效高,但冷却液的纯度维护是一个挑战。
- 交叉污染问题(Cross-Contamination):在设备运输或维护前的清洗(Flushing)过程中,完全排空冷却液是不可能的,总会有残留。
- 场景:当新的强效冷却液(如处理过的水)注入曾使用过乙二醇/丙二醇(Glycol)的回路时,残留的乙二醇会被稀释,形成“交叉混合冷却液”。
- 微生物风险:稀释后的乙二醇(浓度低于20%)失去了抑制微生物的能力,反而可能成为细菌的养分。微生物生长会导致生物污垢(Fouling)、腐蚀(特别是点蚀)以及传热效率下降。
2. 实验设计
研究设计了两个实验来模拟数据中心的真实场景:
实验一:停滞存储测试(Stagnation Test)
- 模拟场景:冷却回路清洗后被存放起来(例如在仓库中),冷却液处于静止状态。
- 方法:
- 材料样本:将代表性材料(铜、黄铜、SS304、SS316、EPDM橡胶)放入玻璃罐中。
- 溶液配置:模拟不同程度的残留,配置了4种浓度的丙二醇(PG-25)与处理水的混合液,PG含量从 0.375% 到 2.5% 不等。
- 条件:35°C恒温(利于细菌生长),密封,每30天取样一次,持续180天。
实验二:动态循环测试(Circulation Test)
- 模拟场景:数据中心正在运行的冷却回路,冷却液持续循环。
- 方法:
- Loop A:用3倍体积的去离子水(DI Water)清洗,再注入处理水。
- Loop B:用4倍体积的去离子水清洗,再注入处理水。
- 设备:搭建了两个包含微通道冷板的闭环系统(Loop A 和 Loop B),加载1000W热负荷,入口温度35°C。
- 清洗流程:先运行PG-25,然后排空。
- 监测:每10天取样一次,同时监测热阻和压降的变化。
3. 主要研究结果
A. 停滞测试结果(Test-I)
- 前150天:所有浓度样本均未检测到需氧菌、厌氧菌或真菌。
- 第180天(关键转折):
- 在2.5% PG浓度(10% PG-25 + 90% 水)的样本中,检测到了厌氧菌——硫酸盐还原菌(Sulfate Reducing Bacteria, SRB),计数为 9 CFU/ml。
- 危害:SRB会产生硫化氢(H2S),这是一种强腐蚀剂,会导致金属严重腐蚀。这意味着如果含有约2.5%乙二醇残留的设备存放超过5个月,就有腐蚀风险。
B. 循环测试结果(Test-II)
- 前120天:无论采用哪种清洗程序(Loop A或B),系统均保持清洁,未检测到细菌。
- 第130天(失效):
- 两个回路同时检测到了需氧菌(Aerobic bacteria),具体为黏液细菌(Mucoid bacteria)。
- Loop A:细菌计数约 500 CFU/ml。
- Loop B:细菌计数约 200 CFU/ml。
- 物理性能影响:
- 热阻:在检测到生物生长的第130天,两个冷板的热阻均出现了轻微增加。
- 压降:相比初始状态,第130天的压降略有上升(例如从约4.8 kPa升至5.0 kPa),表明生物膜(Biofilm)开始形成并部分堵塞了微通道。
4. 结论与工程启示
· 低浓度残留极其危险:即使丙二醇浓度低至 1% – 2.5%,在适宜温度(35°C)下,经过足够长的时间(4-6个月)也会滋生微生物。· 细菌类型差异:
- 静止状态倾向于滋生厌氧菌(如SRB),引发腐蚀风险。
- 循环状态倾向于滋生需氧菌(如黏液细菌),形成生物膜,增加流阻并影响散热。
· 清洗不足以确保持久安全:即使使用了严格的去离子水冲洗(3倍或4倍体积),残留物仍足以在运行4个月后引发微生物爆发。· 维护建议:数据中心必须实施常规的生物分析(Bio-analysis),不能仅依赖初始清洗。需要定期监测微生物指标,并合理使用杀菌剂,以防止设备腐蚀和性能衰退。
总结而言,在液冷数据中心中,清洗不彻底导致的微量冷却液交叉污染(Glycol残留),在长期静止或运行(约4-6个月)后会诱发微生物生长(SRB或黏液细菌),从而威胁下一代改进冷却液系统可靠性,因此定期的生物监测至关重要。