职位描述
岗位职责:
负责AI基础设施的设计、搭建与优化,管理机器学习模型全生命周期,确保AI能力从实验室到规模化应用的稳定性。
设计并实施高效的CI/CD/CT流程,主导技术选型,打造高效研发平台。
负责大语言模型(LLM)的部署、监控、扩缩容与性能优化,构建监控告警与应急响应机制,保障AI服务高可用性。
深入研发流程,识别效率瓶颈,主导自动化体系建设,实现运维工作自动化。
持续追踪并引入前沿MLOps及大模型技术(如推理加速、模型量化等),保持技术基础设施先进性。
跟进开源工具及项目,快速构建实验环境进行验证与试用。
任职要求:
拥有3年左右DevOps/SRE/平台开发经验,具备1年以上大语言模型(LLM)部署、运维与性能优化经验。
精通容器化技术(Docker)与编排系统(Kubernetes),具备K8s集群运维与故障排查能力。
熟练掌握至少一套CI/CD工具链(如Jenkins、GitLab CI等)。
精通监控体系(如Prometheus、Grafana等)搭建与应用,熟练使用Python/Shell/Go等语言进行自动化开发。
具备系统思维与主人翁精神,能主动发现并解决系统瓶颈与潜在风险。
学习能力强,对技术有热情,能快速解决复杂技术难题,具备良好的团队协作与沟通能力。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕