H200-SXM5 TRAY板 亮灯 不读卡 PCIe Switch芯片功能模块失效 更换芯片修复
服务器型号:H200-SXM5
报错部件:TRAY板
故障描述:亮灯 不读卡 8卡均未识别
结论:使用故障表现为亮灯,不读卡,故障机理为底板上的PCIe Switch芯片功能模块失效所致,更换该芯片后故障修复
故障检测
使用centlt_check_tools工具对故障底板进行测试检测,发现8张卡均未识别到。
正常情况是全部槽位8张卡均能够识别到。
故障机理
8个GPU子卡通过NVLINK通信,通过PCIE总线将数据传递给GPU,当检测到1个或多个GPU未识别时会进行报错。
故障定位
根据原理图及电路图分析产品读卡的逻辑和原理,故障定位PCIe Switch芯片的I2C总线时钟PEX_I2C_SCL1线路异常,最终排查锁定故障为PCIe Switch芯片故障。
故障修复
将底板进行烘烤,使用BGA返修台更换芯片,器件更换后使用X-RAY设备进行焊接检测。整机FLD压力测试通过,故障成功修复
网度通信拥有完整的配套芯片级维修检测环境与专业维修技术工程师,可检测并维修NVIDIA GPU全系列产品 包含RTX4090、5090、A100、A800、H100、H200、H800、H20、B200等多种型号算力卡维修。GPU核心BGA焊接,显存颗粒、电源控制芯片、SWITCH芯片、时钟芯片故障诊断更换、主板/数据交换板故障修复等疑难故障检测修复。
液冷服务器GPU模组维修、算力卡维修,底板电源更换提供备件维保服务,网度通信一站式服务