职位详情
超算运维工程师
8000-12000元
合肥城市云数据中心股份有限公司
合肥
1-3年
大专
06-05
工作地址

大数据产业园C6栋

职位描述
岗位职责:
1、系统运维保障
负责HPC集群(基于Slurm作业调度系统)的日常运维,保障超算平台稳定运行;
维护InfiniBand(IB)网络架构,处理网络性能优化及故障排查;
管理分布式存储系统(Lustre/GPFS),监控存储容量、性能及硬件健康状态,及时处理存储故障。
2、硬件与设备维护
负责物理服务器(X86/ARM/GPU/SW64架构)存储的基础配置、硬件巡检、故障诊断及备件更换;
维护网络设备(交换机、路由器、防火墙等),确保网络连通性及安全性;
配合供应商完成硬件维保及升级工作。
3、系统与安全运维
熟悉CentOS/Rocky/Ubuntu等Linux系统,执行系统巡检、补丁升级、漏洞修复等操作;
制定并优化运维流程,编写运维手册、故障报告、变更记录等技术文档。
任职要求
大专及以上学历,1年以上超算/HPC集群或大型数据中心运维经验;
熟悉超算领域相关架构组件,能熟练操作Slurm作业调度系统,了解IB网络架构原理;
具备Lustre/GPFS存储系统维护经验,了解分布式存储原理。
熟练操作Linux系统,掌握Shell/Python脚本编写能力;
熟悉服务器硬件架构(X86/ARM/GPU等),能独立完成硬件故障排查及更换;
了解网络基础知识(TCP/IP、VLAN、路由协议等),具备网络设备配置经验。
软性素质
责任心强,具备良好的服务意识,与用户及团队高效沟通,推动问题解决。
逻辑清晰,具备技术文档编写及问题分析能力;
良好的团队协作与跨部门沟通能力。
加分项
持有RHCE、CCNA、HPC认证等相关证书;
有国产化平台(如SW64、昇腾、海光架构)运维经验;
熟悉容器化技术(Docker/Kubernetes)或自动化运维工具Ansible

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请