职位描述
岗位职责:
1.负责信息化系统的日常监控、故障响应及性能优化,确保稳定运行;
2.负责与科研团队、技术、职能部门、领导层等沟通协调,收集信息化系统改进需求,协调信息化系统与集团统建系统对接、开发资源落地、功能迭代,优化现有业务流程的数字化解决方案,提升科研管理效率;
3.负责信息化系统立项、预算、采购、开发、信创、运营管理;
4.负责云平台智算平台的日常巡检、监控与维护,及时发现并解决平台出现的各类故障,确保云平台的稳定运行;
5.协助各实验室进行系统故障的排查、诊断与处理,快速定位问题根源,及时修复故障,缩短系统停机时间;
6.负责安装和维护GPU驱动、CUDA、cuDNN、NCCL等基础软件,确保版本兼容性。
任职要求:
1.专业要求:计算机、软件工程、网络工程等相关专业;
2.经验要求:具有5年以上运维工作经验,熟悉主流云计算平台(如 OpenStack、k8s 等)的架构与运维管理流程,有维护大规模云平台的实践经验;熟练掌握 Linux 操作系统,精通 shell、ansible、puppet等运维脚本,能够熟练运用系统命令进行服务器管理与故障排查,具备独立解决复杂系统问题的能力;对 GPU 服务器架构与工作原理有深入了解,具备一定的 GPU 服务器运维经验;
3.其他要求:具备良好的团队协作精神与沟通能力,能够与开发团队及其他相关部门密切合作,共同推进系统故障处理与优化工作,同时要善于倾听他人意见,积极主动地解决问题。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕