职位描述
岗位职责:
1、AI平台稳定性与性能保障:负责公司AI模型(特别是大型语言模型及其他深度学习模型)生产环境的7x24高可用保障,包括模型推理服务、训练/微调集群等。建立针对AI工作负载的专项监控、告警与可观测性体系(如GPU资源利用率、模型推理延迟、QPS、Token消耗、异常检测等)。主导AI模型服务相关的线上故障排查,解决包括硬件、驱动、框架、依赖服务在内的复杂问题。
2、AI模型部署与MLOps流程建设:设计并实施高效、自动化的模型部署(CI/CD)流水线,实现从模型镜像构建、版本管理、灰度发布到一键回滚的全流程自动化。优化模型的部署架构,支持蓝绿部署、金丝雀发布等策略,确保模型更新平稳、安全。深入运维至少一种主流国产大模型平台(如华为、阿里云百炼、智谱GLM-开放平台等),负责其与公司现有技术栈的集成、运维和调优。
3、基础设施优化与成本控制:管理和优化GPU/NPU等异构计算资源池,提高资源利用率和投资回报率。对AI工作负载进行性能调优,包括模型服务化框架(如Triton, TGI, vLLM)、容器编排层(K8s Device Plugin)及硬件驱动层面。通过资源调度策略、弹性伸缩等手段,有效控制高昂的算力成本。
4、技术前瞻与标准化:研究和引入业界先进的MLOps工具链和最佳实践(如KubeFlow, MLflow等)。制定AI模型部署、运维的规范和标准,编写技术文档,赋能AI研发团队。
任职要求:
经验: 5年以上运维/DevOps/SRE经验,至少包含1年以上AI模型生产环境部署和运维经验。
核心运维能力: 精通Linux、网络、容器化(Docker)和编排技术(Kubernetes),自动化能力(Python/Go/Shell, Terraform/Ansible)扎实。
AI模型部署专长:熟悉主流的深度学习框架(如PyTorch, TensorFlow)及其模型格式。拥有丰富的模型服务化(Model Serving)经验,熟悉至少一种推理服务框架(如NVIDIA Triton, TensorFlow Serving, TGI, vLLM)。精通Kubernetes上GPU资源的调度和管理(如Device Plugin, GPU共享等)。
国产大模型平台经验:具备对至少一种国产大模型平台(如文心千帆、阿里百炼、智谱GLM、Kimi等)的实际运维经验,熟悉其API、管控台、计费模式和高可用方案。理解其与自有机房或公有云环境的集成方式。
监控与排障: 有能力构建针对AI服务的可观测性系统,熟练使用Prometheus、Grafana等工具监控GPU、推理延迟等关键指标。
加分项:
有大规模AI训练集群的运维经验(如使用Ray, Kubeflow Training Operator)。
有模型量化、剪枝、蒸馏等优化技术的实践经验。
熟悉AI工作负载的安全最佳实践(SecMLOps)。
对主流开源大模型(如Llama系列, Qwen等)的部署和微调有实践经验。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕