5000-7000元
T80科技文化国际社区22号楼
主要职责
1. HPC集群运维管理
· 负责大型HPC集群的日常监控、维护和优化,保障系统7x24小时高可用
· 管理作业调度系统(Slurm/PBS等),优化资源分配策略,提升集群利用率
· 部署和维护并行文件系统(Lustre/GPFS等),确保海量科研数据的高速访问
2. 科研软件生态支持
· 为各类科学计算软件(计算化学、计算物理、生物信息学、人工智能框架等)提供编译、安装、调试和优化支持
· 创建和维护标准化软件环境模块
· 协助研究人员解决软件使用中的技术问题,编写使用文档
3. 系统架构与项目实施
· 参与HPC集群的规划、部署和升级项目
· 实施系统自动化运维方案(Ansible/SaltStack等)
4. 性能调优与故障排查
· 分析系统性能瓶颈,对计算节点、存储、网络进行调优
· 快速定位并解决硬件、系统及应用层面的故障
· 定期进行系统安全加固和漏洞修复
任职要求
1. 学历与经验
· 计算机相关专业本科及以上学历
· 3年以上Linux系统运维经验,至少1年HPC或大规模集群运维经验
2. 核心技术能力
· 精通Linux系统(RHEL)的管理、调优和故障排查
· 熟悉Shell/Python脚本编程,具备自动化运维能力
· 掌握HPC集群核心组件:作业调度系统、并行文件系统、高速网络
· 具备丰富的科研计算软件编译、安装和调试经验
3. 专业认证
· RHCE/RHCA认证
· 或其他同等级Linux专业认证
【优先条件】
1. 熟悉容器化技术(Docker/Singularity/Podman)在HPC环境的应用
2. 有GPU计算集群(NVIDIA DGX/CUDA)运维经验
3. 有科研机构、高校超算中心或大型互联网公司运维经验
【软实力要求】
1. 出色的问题分析和解决能力,能在压力下保持冷静
2. 良好的沟通能力和服务意识,能与科研人员有效协作
3. 强烈的责任心和主动性,注重细节
4. 持续学习新技术的能力和热情
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕