职位描述
岗位职责
1、系统稳定性与应急管理:建立并维护立体化监控体系,实时监测系统运行状态,提前识别潜在风险并制定完善应急预案;在故障发生时,快速定位根本原因,协调内外部资源高效解决问题,最大限度降低对业务的影响,保障系统持续稳定运行。
2、数据安全与合规管理:构建全面的数据安全防护体系,制定并严格执行安全策略;定期组织开展安全演练与风险评估,及时响应安全漏洞,推动补丁更新与安全措施优化,确保数据安全与业务运营符合相关法规及企业内部规范。
3、运维自动化与流程优化:主导运维工具化与自动化建设工作,梳理、优化运维流程,提升运维效率与质量,减少人为操作失误,降低运维风险,推动运维工作向智能化、高效化发展。
4、跨部门协同与技术适配:与研发、产品等部门紧密协作,前置对接研发部门,明确技术与业务需求;协助搭建测试、生产等环境,及时向产品和研发侧同步系统运行数据与问题反馈,确保技术方案与业务需求高效适配,助力业务顺利开展。
5、算力资源规划与运维优化:深入理解 CPU、GPU 等算力资源特性,科学规划算力资源,优化资源使用效率,保障业务运行性能处于最优状态;同时,具备算力资源的监控与调度能力,根据业务需求动态调配资源。
任职要求:
1、本科及以上学历,计算机或相关专业,8年以上运维/平台管理经验
2、熟悉 Kubernetes、Docker、Helm 等云原生技术,熟悉Python或shell脚本运维开发,有中大型集群运维经验;
3、精通 自动化运维平台 构建与CI/CD体系(Ansible、Jenkins、GitLab CI、Terraform等);
4、具备 监控告警体系(Prometheus、Grafana、Loki、ELK)搭建经验;
5、了解 攻防演练、漏洞修复、数据加解密 等安全防护机制;
6、具备良好的分析、协作与推动能力,有大型互联网项目经验者优先。
7、对 CPU、GPU 等算力资源有深入理解,能进行算力资源的规划、监控与调度。(加分项)
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕