职位详情
算力集群运维工程师
1-1.5万
英智未来(深圳)人工智能科技有限公司
深圳
1-3年
本科
12-02
工作地址

飞亚达科技大厦(科技南十二路)1208

职位描述
一、岗位职责:
  1. 集群管理与维护:

    • 负责算力集群日常管理与维护,包括服务器、存储设备、网络设备的安装、配置、监控及故障处理。
    • 定期检查集群资源使用情况,分析并优化资源分配,保障系统稳定运行。
    • 对系统日志、监控数据等进行分析,及时预警和解决潜在问题。
  2. 性能调优:

    • 负责集群的性能分析和调优,根据实际应用需求优化计算资源和网络性能。
    • 利用各类调优工具对系统瓶颈进行分析并采取优化措施,提升算力集群整体运行效率。
  3. 安全管理:

    • 执行和维护机房内的安全策略,确保设备和数据的安全性。
    • 定期进行系统和网络安全检查,及时进行漏洞修补和安全防护升级。
  4. 应急响应与故障排除:

    • 制定并执行应急响应计划,快速定位并解决系统故障。
    • 在集群出现异常时进行故障排查和修复,恢复系统正常运行。
  5. 系统升级与更新:

    • 根据需求进行集群硬件和软件的升级和扩容,保证系统兼容性和高可用性。
    • 定期更新操作系统、驱动程序和应用软件,确保算力集群性能的持续提升。
  6. 文档管理与报告:

    • 完成运维记录、故障排查文档、技术操作手册等文档管理工作。
    • 定期提供运维数据分析和总结报告,帮助决策制定和资源规划。


二、岗位要求:

  • 熟悉Linux/Unix操作系统,具备网络、存储、集群调度的基础知识。
  • 有GPU、AI加速器等硬件设备运维经验,熟悉服务器硬件管理。
  • 良好的故障分析和排查能力,能够独立进行问题的定位和解决。
  • 具备良好的团队协作和沟通能力,有较强的责任心和服务意识。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请