职位描述
岗位职责:
1. 负责公司项目的标准化、规范化部署体系建设,设计并落地应用从开发、测试到生产环境的自动化发布流程,提升交付效率与稳定性。
2. 构建和维护 CI/CD 流水线,支持多服务、多环境(开发 / 测试 / 预发 / 生产)的持续集成与持续部署,实现版本可追溯、可回滚。
3. 负责系统运行状态的监控、告警与日志体系建设,覆盖应用服务、模型服务、GPU 资源及底层基础设施,保障系统稳定运行。
4. 参与服务器与云资源的统一管理与规划,包括计算、存储、网络资源的分配、扩容与成本优化。
5. 负责 GPU 集群的搭建、运维与调度,支持大模型训练与推理服务的高效运行,保障资源利用率与服务 SLA。
6. 参与系统高可用、高并发与容灾方案设计,推动平台在规模化应用场景下的稳定运行。
7. 编写并维护运维相关技术文档与规范,持续推进运维流程自动化与标准化。
任职要求:
1. 计算机科学、软件工程或相关专业本科及以上学历,具备扎实的计算机系统基础。
2. 熟悉 Linux 操作系统,具备较强的服务器环境部署、排障与性能调优能力。
3. 熟练使用 Docker,了解并掌握 Kubernetes(K8s)等容器编排技术,有实际生产环境经验。
4. 熟悉至少一种 CI/CD 工具链(如 GitLab CI、Jenkins、Argo CD 等),具备自动化发布与回滚实践经验。
5. 熟悉常见监控与告警体系(如 Prometheus、Grafana、Alertmanager、ELK / Loki 等),能够独立搭建并优化监控方案。
6. 具备一定的脚本与开发能力,熟练使用 Shell、Python 或 Go 进行运维自动化开发。
7. 熟悉服务器资源管理与网络基础知识,对系统稳定性、可用性与安全性有较强责任感。
加分项:
1、有 GPU 服务器或 GPU 集群运维经验,熟悉 CUDA、NVIDIA 驱动、NCCL 及相关生态。 •
2、有大模型训练或推理服务(如 vLLM、Triton、TensorRT-LLM 等)的部署与运维经验。
3、了解 SRE 理念,有 SLA / SLO / 错误预算等实践经验。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕