职位描述:
1、负责部门内智能系统(如AI平台、知识库系统等)部署、运维、监控、故障排查与优化;
2、负责协同其他部门对服务器等基础设施的日常运维管理,协助完成硬件部署、上线调试、故障诊断、升级与维护。
3、负责为开发团队提供稳定的测试与开发环境,并对虚拟化或容器化环境进行资源调度与隔离。
4、负责运维流程与文档建设、推进自动化运维工具建设,提高运维效率与质量。
职位要求:
1、计算机相关专业本科以上学历,2年以上云原生运维经验,1年以上大模型部署调优经验;
2、熟悉Docker、Kubernetes等容器技术,了解主流云平台(阿里云/AWS等)的使用,并具备丰富的实操和运维经验;
3、深入理解Linux/Unix系统、网络原理及硬件架构,具备扎实的理论基础与丰富的实践经验,拥有出色的故障排查能力,能够快速定位并解决复杂技术问题;
4、熟悉Golang/Python中至少一种开发语言,有Ansible/Saltstack/Puppet等自动化部署和编排工具开发经验;
5、具备较强的沟通和团队协作能力;
6、具有大模型项目落地经验者优先,熟悉大模型训练、推理等业务流程及技术要点。