职位描述
(外包岗位,派驻到南方电网)
岗位职责:
1.具备人工智能领域工作运维经验优先考虑;
2.主导公司人工智能领域业务系统的运维架构设计,制定长期运维技术战略,推动运维体系向智能化、平台化演进,解决跨部门复杂技术协同问题;
3.分析系统应用程序的性能与高可用问题,建议优化方案;负责公司核心业务系统落地,牵头处理重大、疑难运维故障,建立故障根因分析机制,性能与高可用优化;
4.编写增效工具,满足日常数据统计及自动化需求;
5.按要求搭建业务监控告警体系,整合多维度监控数据(业务指标、系统指标、日志数据),建立智能告警模型,实现故障提前预警;
6.基础架构部署:主导分布式系统(含数据库集群、中间件集群、容器集群)的部署规划与容量管理,结合业务增长趋势制定资源扩容方案,保障基础架构稳定性与可扩展性;
7.搭建运维知识体系,编写高阶运维文档与最佳实践手册,牵头技术分享与培训,指导中级运维人员成长,推动团队整体技术能力提升。
任职要求:
1.经验要求:5 年以上运维经验,其中至少 2 年大型分布式系统(日均数据量 1000 万 + 或并发量 1 万 +)运维管理经验,具备人工智能领域(如机器学习平台、AI 模型服务)运维经验者优先;
2.系统操作能力:精通 Linux 系统内核调优(如内存管理、进程调度、网络参数),能独立解决复杂系统故障(如内核 panic、死锁、网络丢包),熟悉 AIX、Solaris 等 Unix 系统者优先;
3.Web 服务能力:精通 Nginx/Tomcat/Node.js 等 Web 应用服务器的底层原理与深度优化(如 Nginx 反向代理缓存策略、Tomcat 线程池调优),具备 Web 服务性能压测与瓶颈分析经验;
4.数据MySQL/Redis/PGSQL数据库集群的部署,监控,优化;
5.熟练使用shell,python等脚本语言并具备一定的开发能力;
6.熟练自动化配置工具,如ansible、saltstack等;
7.熟悉常见ES、Kafka、Nacos等中间件部署、优化;
8.熟悉Docker应用、Kubernetes等容器管理工具经验。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕