职位描述
工作职责:
1.参与集群的整体架构设计,包括服务器、存储、网络和其他基础设施组件的选型和配置。制定基础设施扩展计划,确保能够支持未来业务增长和技术需求;
2.负责HPC集群中计算节点、存储系统和网络设备的安装、配置和日常维护;
3.监控存储系统的性能指标,识别瓶颈并进行优化;
4.为HPC用户提供相关的技术支持,解决他们在使用过程中遇到的问题;
5. 实施数据备份和恢复策略,确保关键数据的安全性和完整性;
6. 提供集群使用培训,帮助用户更好地理解和使用资源;
任职要求:
1.有高校或科研机构数据中心管理工作经验者优先;
2.2年以上HPC的基础设施管理经验,熟悉HPC集群的设计、部署、管理和优化流程;
3.熟悉HPC环境下的存储技术和协议(如NFS、iSCSI、Fibre Channel、RDMA等);
4.深入了解主流的分布式文件系统(如Lustre、GPFS、Ceph、GlusterFS等)。有相关认证(如Lustre认证、IBM GPFS认证等)的优先考虑;
5.能够使用监控工具(如Ganglia、Prometheus、Grafana等)对HPC集群进行性能监控;
6.具有Linux系统运维经验,操作系统调优和问题排查经验;具备Slurm、Torque、K8S等系统的搭建和维护经验;
7.精通Hyper-V\KVM\OpenStack\VMware等虚拟机化技术;
8.精通浪潮、华为、H3C等主流厂商的交换机、存储、高性能服务器等设备的配置及使用;
9.具备良好的问题解决能力和分析能力,能够在压力下高效工作;
10.具有团队合作精神,能够与其他团队和用户有效沟通;
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕