职位详情
HPC高性能计算集群运维工程师
1-1.2万
江苏泓哲信越信息技术有限公司
南京
3-5年
本科
01-26
工作地址

T80科技文化国际社区22号楼

职位描述

主要职责

1. HPC集群运维管理

· 负责大型HPC集群的日常监控、维护和优化,保障系统7x24小时高可用

· 管理作业调度系统(Slurm/PBS等),优化资源分配策略,提升集群利用率

· 部署和维护并行文件系统(Lustre/GPFS等),确保海量科研数据的高速访问


2. 科研软件生态支持

· 为各类科学计算软件(计算化学、计算物理、生物信息学、人工智能框架等)提供编译、安装、调试和优化支持

· 创建和维护标准化软件环境模块

· 协助研究人员解决软件使用中的技术问题,编写使用文档


3. 系统架构与项目实施

· 参与HPC集群的规划、部署和升级项目

· 实施系统自动化运维方案(Ansible/SaltStack等)


4. 性能调优与故障排查

· 分析系统性能瓶颈,对计算节点、存储、网络进行调优

· 快速定位并解决硬件、系统及应用层面的故障

· 定期进行系统安全加固和漏洞修复


任职要求

1. 学历与经验

· 计算机相关专业本科及以上学历

· 3年以上Linux系统运维经验,至少1年HPC或大规模集群运维经验


2. 核心技术能力

· 精通Linux系统(RHEL)的管理、调优和故障排查

· 熟悉Shell/Python脚本编程,具备自动化运维能力

· 掌握HPC集群核心组件:作业调度系统、并行文件系统、高速网络

· 具备丰富的科研计算软件编译、安装和调试经验


3. 专业认证

· RHCE/RHCA认证

· 或其他同等级Linux专业认证


【优先条件】

1. 熟悉容器化技术(Docker/Singularity/Podman)在HPC环境的应用

2. 有GPU计算集群(NVIDIA DGX/CUDA)运维经验

3. 有科研机构、高校超算中心或大型互联网公司运维经验


【软实力要求】

1. 出色的问题分析和解决能力,能在压力下保持冷静

2. 良好的沟通能力和服务意识,能与科研人员有效协作

3. 强烈的责任心和主动性,注重细节

4. 持续学习新技术的能力和热情


以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请