职位详情
算力算法运维经理
2.5-3.5万
嘉合通盈(北京)科技产业发展有限公司
北京
10年以上
本科
01-10
工作地址

金唐西联大厦

职位描述
岗位工作概述:
1、组织统筹各专业主管工程师,编制本数据中心的IT质量管理体系技术文档,包括IT设施 MOP 、 SOP 、 EOP ;
2、组织落实IT质量管理制度及流程,存档各种形式的设备资料、图纸、培训文档、运维记录等;
3、组织带领各专业主管工程师,定期开展风险及缺陷的识别与评估活动;
4、硬件监控与维护:GPU集群安装与维护,管理BMC + IPMI硬件报警系统,建立和维护硬件告警工单体系。负责机器内硬件固件的升级维护、问题定位,进行硬件/BIOS性能调优。监控和维护RDMA网络/交换机,调整水线,进行故障定位。 软件运维:负责监控、日志、存储、工单系统组件的搭建及运维管理;
5、IDC管理:负责IDC的备件库存管理,确保7*24小时oncall响应,处理机房问题(如断电、温度过高等),协调厂商上门升级服务,对故障机器组件(如网卡、主板、光模块、线缆)进行更换和维修。
任职要求
工作经验:
1、有带领团队维护大型GPU服务器集群三年以上工作经验;
2、有大规模智算集群早期或中期搭建运维经历,全链路细节经验丰富。
教育水平要求:本科及以上学历,有IT网络相关专业毕业。
岗位技能要求:
1、熟悉任职岗位及下属岗位的各项业务及运作流程;
2、熟悉行业标准及规章制度;
3、具有较强的管理能力和领导水平;
4、能够依照运维体系中的各项要求完成、指导相关工作;
5、具备较强的计划、组织、领导、协调、控制、督导能力;
6、有较高的职业素质、责任感,良好的管理理念、服务意识、应急处理能力,为人热忱有礼,工作仔细认真。
工作技能要求:
1、取得国家及相关设备厂商专业机构颁发的行业许可证;
2、有带领团队维护大型GPU服务器集群三年以上工作经验;
3、有大规模智算集群早期或中期搭建运维经历,全链路细节经验丰富;
4、有强大的问题协调解决和应急处理能力。
5、能出色的带领团队完成工作任务,具备娴熟的沟通技巧能够和各业务方进行无障碍沟通。
6、具备持续学习新技术的热情和能力,具有英文读写各种指令和一定的英文口语能力。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请