职位描述
一、工作职责
1. 负责GPU算力资源池的 7×24 小时运行监控,及时响应系统、网络、硬件等各类告警。负责日常巡检工作,包括服务器状态、GPU 健康情况、网络连通性及环境指标。
2. 按照运维SOP对常见故障进行初步诊断与处理,包括节点下线、服务重启、环境回滚等。对无法独立解决的问题,按流程升级至二线/三线技术人员,并全程跟进处理进度。
3. 协助完成设备上下架及厂商维保对接。
4. 严格执行值班交接制度,确保信息传递准确完整。
二、任职要求
1. 大专及以上学历,计算机相关专业,2年及以上IT运维或数据中心运维经验。
2. 熟悉Linux基本操作,能够查看日志并进行初步故障判断,熟悉监控系统(如Prometheus、Grafana等),具备基本的服务器硬件认知和动手能力。
3. 能接受夜班和轮班制工作安排,责任心强,具备良好的应急响应能力。
4. 具备HCIP及以上同等水平网络专业认证者优先。
三、薪资待遇
税前每月6K-10K,具体待遇面议。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕