水利信息化运维工程师
7000-9000元·13薪
深圳 大专
网谷创享大厦12、13层
岗位职责:
1、环境部署:负责 Linux 系统及常见中间件、数据库的安装、配置及优化。
2、算力集群管理:负责多源异构大规模 GPU 算力集群的上架、配置、调度与管理,
3、故障诊断:定位解决AI推理服务故障、定位识别GPU 掉卡、XID 报错等底层硬件、驱动问题。
4、日常运维:负责人工智能算力系统、招商云人工智能技术平台的日常运维。
5、监控与告警:负责使用招商云监控告警中间件监控系统状态,处理突发故障。
6、容器化:负责 Docker 容器及 Kubernetes (K8s) 集群的日常运维与扩缩容。
任职要求:
1、熟练掌握 Shell 或 Python 脚本编写。
2、有大型高并发场景下的链路优化经验。
3、熟悉国产GPU驱动、CUDA、NCCL 等计算栈的安装与调优。
4、有大模型(LLM)训练/推理集群运维经验者优先。
5、熟悉云平台的操作与维护优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕