岗位职责:
1、负责腾讯云基础设施的监控、巡检及故障处理,保障业务7×24小时稳定运行;
2、管理云资源生命周期,包括资源申请、配置变更、容量规划及成本优化;
3、设计并落地运维自动化方案,基于腾讯云API、Terraform、Ansible、Shell/Python等工具实现资源编排、部署流程自动化,提升运维效率;
4、搭建监控告警体系,整合腾讯云监控(Cloud Monitor)、Prometheus、Grafana等工具,覆盖资源指标、应用性能及业务日志;
5、落实腾讯云安全最佳实践,配置安全组、WAF、堡垒机、数据加密(SSL/TLS、KMS)等防护措施,定期进行漏洞扫描与安全审计;
6、对接开发、产品团队,提供云资源使用咨询与技术支持,推动运维需求标准化;
7、与新项目的云架构评审,从运维视角提出优化建议。
任职要求:
1、本科及以上学历,计算机、软件工程等相关专业;
2、3年以上云平台运维经验,其中至少1年腾讯云深度使用经验(熟悉阿里云/华为云者可酌情考虑,但需快速掌握腾讯云特性);
3、持有腾讯云高级工程师认证(TCP) 、AWS Certified SysOps Administrator或CKA(Certified Kubernetes Administrator)认证者优先;
4、腾讯云核心产品:精通CVM、VPC、CLB、CDB(MySQL/Redis)、COS、TKE、云监控等产品的配置、调优及故障处理,熟悉腾讯云账号体系(CAM权限管理)、资源标签与成本分析工具(Cost Explorer);
5、运维自动化:熟练使用Terraform编写IaC(基础设施即代码),掌握Ansible/Shell/Python(至少一种)实现批量操作与脚本编写;
6、底层技术:熟悉Linux系统(CentOS/Ubuntu)运维,掌握内核调优、网络排障(tcpdump/iftop)、存储管理(LVM/RAID),了解Docker容器化、Kubernetes编排原理;
7、监控与排障:掌握Prometheus+Grafana监控搭建,熟悉ELK/EFK日志收集分析,具备较强的故障定位能力(如通过日志、监控指标快速定位网络延迟、数据库慢查询等问题)。