职位描述
负责计算节点的日常服务管理和健康性维护,按照客户要求提供华为产品支持,多厂家产品统一运维,包括针对三方产品联系相应质保(保修/维保厂家获取相关技术支持,对于故障现象为计算类问题或根据TAM指派,牵头相关跨域故障定界确定是否为计算故障。
故障处理:
1、提供对告警监控的降噪分析,优化告警规则,提升告警处理效率
2、针对域内提供计算节点的故障识别、问题定界定位的技术支持服务
问题处理:
1、对遗留问题进行分析、总结、跟踪闭环,及时输出案例进行知识沉淀
投诉处理:
1、当前服务主要针对报障类投诉进行处理,当AI框架及以上的故障定界定位到计算节点之后,提供问题定位并辅助解决的能力
变更处理
1、对由投诉、配置操作、安全事件提出的疑难、复杂类变更申请,提供变更的技术评审,远程变更的操作,以及变更过程中保障,操作后的验证服务
2、对由故障单触发需进行的疑难、复杂变更,提供变更方案,并联合领域业进行变更评审,远程变更的操作,以及变更过程中保障,操作后的验证服务
巡检预防:
1、协助完成对智算集群中计算节点的巡检方案、健康检查方案、应急方案的输出
2、提供节假日远程保障,重大事件保障等服务
技能要求:
中级:
1、熟悉并掌握鲲鹏计算(如Taishan5280)、异腾计算(如Altas200、Altas300、Altas800、Altas9000)等系列产品中一种及以上的特性、系统结构以及典型应用场景;
2、能够独立安装、维护智能计算系列产品,并进行简单的故障排除和部件更换。管理配置各系列服务器特性,部署常用操作系统;
3、能够熟练的对智能计算产品进行指标测试和系统调测,了解复杂组网,能够对常见故障进行判定和处理。
4、具备HCIP证书,HCIE/CCIE相关认证证书者优先。
高级:
1、熟悉并掌握华为鲲鹏计算、昇腾计算、机架服务器等系列产品中两种及以上的特性、系统结构以及典型应用场景;
2、能够独立安装、维护智能计算系列产品,并进行复杂的计算产品故障排除和部件更换,管理配置各系列产品特性,解决常见操作系统故障问题;
3、掌握计算集群解决方案,具备运维和调优的能力;
4、了解大模型训练任务流程及常见问题处理流程。
5、具备HCIE证书,具有多个HCIE/CCIE/CISA认证证书者优先。
岗位福利: 五险一金 员工体检 节假日加班工资 年底绩效奖金
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕