职位描述
1.负责超算平台服务器与计算集群的日常运维与性能优化,确保资源合理分配与高效利用,管理并监控相关服务与应用的健康状态,及时发现和解决问题,保证高可用性。
2.配合团队进行云资源的管理和运维,包括但不限于Slurm、Kubernetes、Docker等容器编排工具的使用。
3. 运维策略制定与实施:根据业务需求和技术发展趋势,制定相应的系统运维策略。 进行容量规划、预防潜在瓶颈,确保云平台系统服务满足SLA要求
4. 技术支持与合作与开发团队紧密协作,解决跨部门的技术问题,提供运维相关的技术支持与咨询。编写和完善运维文档,提高运维工作的标准化和规范化程度。
职位要求
-
计算机科学或相关领域本科及以上学历,具备扎实的计算机基础知识和实践经验。
-
熟悉Linux操作系统,有丰富的大规模分布式系统运维经验,尤其是slurm、云平台相关组件如PyTorch等框架的运维经历。
-
具备良好的问题定位和解决能力,能承受较大压力,具有高度的责任心和团队协作精神。
-
具有python、shell脚本编写能力及自动化运维能力。
企业福利:
-
周末双休,弹性工作可选8:30-17:30或9:00-18:00。
-
社保:入职当月即按足额工资基数缴纳五险一金,公积金缴纳比例高达 [10]%。
-
假期:年假以以往累计工龄计算,工龄1-5年,年假5 天,满10年,年假10天,最高可达 15天。
-
体检:每年组织健康体检,关注员工身心健康。
-
年度13薪。