职位描述
岗位职责:
1、国家电网人工智能平台(阿里百炼、百度千帆)部署及运维,管理K8s集群及GPU服务器(驱动/CUDA/监控);
2、使用自动化监控工具排查AI模型异常(GPU利用率低等)及平台故障。
3、构建和完善人工智能平台服务的监控、日志与告警系统,包括模型服务的性能指标(如推理延迟、吞吐量)与业务健康度等;
4、实施自动化运维方案,提升平台运维效率,减少人工干预;
5、优化算力调度与资源分配,支持AI模型部署维护与推理需求;
6、处理用户申请工单,及时响应用户需求,能够快速解决问题恢复业务;
任职要求:
1. 本科及以上学历,至少具备3年及以上的云平台/系统工程师运维经验;
2. 精通Linux和云原生,并能熟练驾驭Docker、Kubernetes、CI/CD等工具;
3. 具有强烈的工作责任心,较好的沟通能力和自驱力,能够快速的响应和行动;
4. 熟悉Python或其他脚本语言,具备自动化脚本开发能力;
5. 熟练使用Prometheus+Grafana监控体系;
5. 具有国网相关运维工作经验者优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕