职位描述
岗位职责:
1.云平台深度运维与迁移后维稳
•负责腾讯云环境监控体系搭建,建立迁移后健康度评估模型,包含资源利用率/故障恢复速度/成本波动等维度。
•主导迁移后隐患治理:包括但不限于网络配置残留风险、数据一致性校验、安全基线加固(参考NIST云安全标准)
•设计跨可用区容灾方案,实现业务连续性保障
2.AI运维系统构建
•重构监控体系实现AI预测性维护,保证故障预测准确率(通过时序数据分析模式)
•提升告警压缩率(应用聚类算法降噪)
•推动运维自动化率(高于当前行业平均45%)
•搭建LLMOps基础设施(如模型版本管理/A/B测试)
•沉淀故障处理SOP,赋能L1团队自主解决大部分常规问题
二、硬性能力要求
1、技术栈 :
•精通K8s+Istio云原生架构
•云迁移经验:至少主导过1次跨云迁移,提供架构对比报告案例
•AI运维实绩,大模型平台搭建运维实战经验
2、提升用LLM实现日志解析准确率
•构建过运维知识图谱
•开发过自主诊断Agent并减少人工工单
3、精通Terraform+Ansible的IaC化运维,熟悉腾讯云TKE/CLB等产品API二次开发;掌握智能体设计模式(链式/路由式/规划式工作流);熟练应用PySpark+GraphQL处理海量运维数据。
4、主动推进技术服务意识;对接业务/开发团队需求、通过预判性维护减少业务不良影响;耐心沟通技术问题以推动跨团队协作;建立需求响应机制,提升业务方问题解决时效。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕