专业IT设备第三方维保_IT设备维保服务_IT备件服务_IT基础架构运维_IT设备维修-网度通信

湖南某高校超融合故障技术支持案例

2023-12-21 17:35
分享到:
 
 
      网度通信助力湖南某高校排除超融合故障
 
      随着数字化时代的迅猛发展,企业对于高效、灵活和可扩展的IT基础设施的需求日益增加。超融合技术作为应对这一需求的创新解决方案,已受到越来越多企业的关注和青睐,成为企业实现数字化转型的得力助手。然而在使用过程中,一旦出现问题,则需要快速修复!否则将严重影响企业的运营效率,给企业带来极大的不便。
      客户背景:
      客户作为湖南某高校,占地面积上千亩,园区内有学生和老师千余人,属于网度通信的维保合作单位。11月7日中午,客户反馈校园IT部门接到用户报告:校园一卡通和办公应用设备均无法使用!严重影响了校园网络的正常运行!原因可能是超融合集群掉线导致。
      解决方案:
      收到客户园区超融合集成修复报障请求后,网度通信根据客户反馈情况,立即派出技术工程师前往现场。
      1.精准排查,找寻故障原因
      排障过程中发现节点1存储控制器从控制台无法登录,并自行重启。重启过程显示报错:无磁盘空间。对比正常节点,报错磁盘为/var,即为/dev/sdb housekeeper 磁盘。未确定其为硬件还是软件故障。
      节点3为离线状态。据系统管理员反馈:此节点频繁出现自行上线/离线现象。通过专业系统分析定位为卡板问题。
      节点4和节点8数据服务均已停止。
      网度通信工程师登上UCS管理器,显示此超融合集成物理机所有路径也均已断掉。
      2.总结故障源头,分析解决办法
      通过以上节点排查,可发现此次故障属于超融合掉线过多导致。理论上讲,多于5节点的超融合,如果只有2台以内节点掉线,可保证其处于正常运行状态。当有第 3 台节点掉线时,系统为防止启动服务导致少数节点错误,进而导致数据一致性错误,集群就会主动关闭服务。 
      3.快速解决问题,网络恢复正常
      因超融合故障给客户园区造成重大影响,网度工程师为迅速将网络恢复正常,故手动启动了节点 4 和节点 8 的数据服务。集群数据服务恢复正常后,重启虚拟机,园区网络可正常使用。
      4.深度思考,修复故障导火索
      虽然临时解决了校园网络故障问题,但如果在后期使用过程中节点1和节点3再次离线,其他任意节点丢失1节,集群还会会再次关闭。
      为了解决这个问题,网度工程师再度排查故障原因,最终发现根本原因为2点:
      (1)节点1的存储控制器空间不足导致节点丢失,需要重新部署存储控制器。
      (2)节点3出现自行上线/离线现象,确定为板卡问题,需要更换板卡。
      最终,在网度工程师有条不紊的作业下,客户公司超融合问题成功修复!
      本次超融合故障的修复,再一次印证了网度通信的专业技术和强大实力。网度通信拥有专业的思科,华为,DB2等认证工程师,是深圳市二级维修企业。近10年来积累了丰富的维修,维保,技术和机房搬迁等实际项目服务经验,已为100+机房网络设备,服务器存储等设备提供过专业服务,形成了专业,高效,流程化的技术服务运作体系。网度在全国设六大备件中心,覆盖60+城市备件分拨网点,为客户提供专业迅捷的贴身服务。
 
 
 
 
 
 
 
上一篇:某生产型企业机房网络升级改造项目
下一篇:戴尔 DS9148 存储交换机排障技术支持