职位描述
一、岗位职责:
集群管理与维护:
- 负责算力集群日常管理与维护,包括服务器、存储设备、网络设备的安装、配置、监控及故障处理。
- 定期检查集群资源使用情况,分析并优化资源分配,保障系统稳定运行。
- 对系统日志、监控数据等进行分析,及时预警和解决潜在问题。
性能调优:
- 负责集群的性能分析和调优,根据实际应用需求优化计算资源和网络性能。
- 利用各类调优工具对系统瓶颈进行分析并采取优化措施,提升算力集群整体运行效率。
安全管理:
- 执行和维护机房内的安全策略,确保设备和数据的安全性。
- 定期进行系统和网络安全检查,及时进行漏洞修补和安全防护升级。
应急响应与故障排除:
- 制定并执行应急响应计划,快速定位并解决系统故障。
- 在集群出现异常时进行故障排查和修复,恢复系统正常运行。
系统升级与更新:
- 根据需求进行集群硬件和软件的升级和扩容,保证系统兼容性和高可用性。
- 定期更新操作系统、驱动程序和应用软件,确保算力集群性能的持续提升。
文档管理与报告:
- 完成运维记录、故障排查文档、技术操作手册等文档管理工作。
- 定期提供运维数据分析和总结报告,帮助决策制定和资源规划。
二、岗位要求:
- 熟悉Linux/Unix操作系统,具备网络、存储、集群调度的基础知识。
- 有GPU、AI加速器等硬件设备运维经验,熟悉服务器硬件管理。
- 良好的故障分析和排查能力,能够独立进行问题的定位和解决。
- 具备良好的团队协作和沟通能力,有较强的责任心和服务意识。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕