职位描述
岗位职责:
1.负责智算平台系统的日常运维,包括训练平台、调度平台等系统平台的维护与监控、故障问题排查及解决、并及时反馈处理结果;负责平台私有化部署项目交付,包括部署规划、实施和后期运维,确保客户能够得到稳定可靠的服务支持;
2.管理AI任务调度(算力、算法、任务等)策略,确保算法服务的部署、升级和流量切换的平滑过渡、算力资源利用最大化,并支持算法团队的迭代和调优、提供必要的运维支持;
3.负责系统架构规划、资源申请、服务部署及上线、自动化容器化接入、监控接入及完善等日常运维工作,持续推进系统稳定性、安全性及经济性提升,通过开发工具持续提升工作效率;
4.协调开发、测试、运维团队,提升产品运行质量,主动发现并处理生产环境问题,向产品和研发团队提供反馈,推动平台稳定性和运维流程的持续优化;
岗位要求:
1.本科及以上学历,计算机相关专业;
2.具备丰富的AI平台运维经验,熟悉AI模型训练、推理、服务部署及全生命周期管理;
3.精通Linux系统,具备维护、配置、优化和故障排除能力;
3.熟悉Docker、Kubernetes等容器化技术,以及微服务架构的设计和运维;
4.熟悉HTTP、TCP/IP协议,熟悉基础网络知识;
5.3年以上AI相关平台运维工作经验,有在大型互联网公司的AI平台运维背景者优先;
6.抗压力能力强,具备良好的应急处置能力,能够在较高强度的工作环境下保持冷静并妥善处理各种突发事件。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕