职位详情
平台运维工程师 / HPC运维支持工程师
1.5-1.8万
今日集团
上海
1-3年
本科
07-17
工作地址

绿意路

职位描述

岗位职责

  1. 负责自动驾驶云平台及HPC集群的运行维护,监控系统运行状态,及时响应各类告警,执行日常巡检与健康检查。
  2. 主导平台运行中的问题定位与故障排查,必要时按照流程进行问题升级与处理闭环。
  3. 参与生产环境部署、调试与交付,为用户提供一线技术支持(L1),包括故障响应、需求变更和现场支持。
  4. 配合客户或驻地单位的运维团队开展系统监控、平台变更和应急响应,协调现场与远程团队间的沟通。
  5. 撰写并维护系统运行报告、安装配置记录、故障分析文档及改进建议。
  6. 持续理解用户需求,参与用户培训、服务评估及需求研讨活动,提升用户满意度。
  7. 岗位要求
    1. 操作系统与脚本能力
      • 熟练掌握主流
        Linux 系统(SUSE、RHEL、Ubuntu)运维与调优,具备1-3年或以上相关经验。
      • 熟悉 Shell 脚本,具备编写自动化脚本的能力,有使用 Python、Bash、Ansible 等经验优先。
    2. 集群与存储基础
      • 了解高性能计算(HPC)系统架构,熟悉
        Slurm、Lustre、BeeGFS 或并行/对象存储系统。
      • 能基本操作以太网及
        InfiniBand / RDMA 高速互连网络,有实际支持经验者优先。
    3. 监控与故障排查
      • 熟悉常见监控系统(如 Zabbix、Prometheus + Grafana),具备性能监控、告警分析及优化能力。
      • 有较强的问题定位、日志分析与系统故障排查能力。
    4. 沟通与协作能力
      • 具备良好的沟通协调能力,情绪稳定,能够快速理解用户需求,协调内外部资源解决问题。
      • 能接受阶段性出差或驻点用户现场工作,积极配合用户运维团队完成任务。
    5. 学历与背景
      • 本科及以上学历,计算机、信息技术、电子工程、数学等相关专业优先。

      • 加分项(优先考虑)

        • 有自动驾驶、数据中心、云平台或AI训练平台运维经验。
        • 熟悉 ITIL 变更流程或具备
          DevOps 实践经验。
        • 英语读写能力良好,能够阅读英文技术文档。






以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请