职位描述
一、岗位职责
1.AI系统运维保障
- 负责AI平台/模型的部署、监控及故障处理,确保服务SLA≥99.9%。
- 设计自动化运维工具(如日志分析脚本、智能告警系统),提升故障响应效率。
2.性能优化与安全
- 优化模型推理性能(如GPU资源调度、模型量化),降低延迟30%以上。
- 实施安全策略(数据加密、入侵检测),防范模型泄露或恶意攻击。
3.跨团队协作
- 支持算法团队完成模型训练任务,提供算力资源调优建议。
- 为业务方提供私有化部署方案(如语音/NLP服务)及技术培训。
二、技术要求
硬技能
1.基础能力
- 精通Linux系统管理及Shell/Python脚本开发(必备)。
- 熟练掌握python 虚拟环境及大模型环境运维,要求支持内网环境。
2.AI与工具链
- 熟悉主流监控工具(Prometheus/Zabbix)及日志分析体系(ELK Stack)等。
- 了解机器学习框架(TensorFlow/PyTorch)及基础算法原理(加分项)。
软技能
- 故障快速定位能力(平均修复时间MTTR≤60分钟)。
- 跨部门沟通能力(需向非技术人员解读技术和运维方案)。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕