职位详情
平台运维工程师(驻场)
8000-13000元
赢时胜
深圳
5-10年
本科
01-28
工作地址

网谷创享大厦12、13层

职位描述

岗位职责:

1、环境部署:负责 Linux 系统及常见中间件、数据库的安装、配置及优化。

2、算力集群管理:负责多源异构大规模 GPU 算力集群的上架、配置、调度与管理,

3、故障诊断:定位解决AI推理服务故障、定位识别GPU 掉卡、XID 报错等底层硬件、驱动问题。

4、日常运维:负责人工智能算力系统、招商云人工智能技术平台的日常运维。

5、监控与告警:负责使用招商云监控告警中间件监控系统状态,处理突发故障。

6、容器化:负责 Docker 容器及 Kubernetes (K8s) 集群的日常运维与扩缩容。


任职要求:

1、熟练掌握 Shell 或 Python 脚本编写。

2、有大型高并发场景下的链路优化经验。

3、熟悉国产GPU驱动、CUDA、NCCL 等计算栈的安装与调优。

4、有大模型(LLM)训练/推理集群运维经验者优先。

5、熟悉云平台的操作与维护优先。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请