工作职责:
1、根据运维规划,深入各运维技术子方向(故障监控/容量评估/配置和资源变更等),提供平台化运维解决方案并持续优化;
2、持续跟进 K8S 平台架构应用部署以及平台组件优化,跟进 K8S 运维工具开发;
3、负责大规模服务器配置管理、基础软件安装以及性能调优、应用自动化部署等工作;
4、参与平台SRE轮值 OnCall,完成运维开发相关工作文档编写。
任职资格:
1、计算机统招本科以上相关专业,3年以上运维/开发经验,熟悉软件开发和系统架构,有自动化运维的经验,精通Linux操作系统;
2、熟悉 K8S多集群生命周期管理;熟练 Golang/Python 开发;
3、熟悉基本的数据结构,熟悉基本的网络知识,熟悉项目中 Postgresql/Mysql 等数据库使用;
4、熟悉计算机网络,熟悉 DHCP、DNS 等常见协议,擅长基于 Tcpdump/Wireshark 分析网络问题;
5、掌握 Prometheus/Alertmanager 监控告警平台,并基于 API 和 Webhook 实现自定义告警通知;
6、基于 Ubuntu、Centos 做系统二次封装,掌握基于 PXE kickstart 自动化装机流程;
7、熟悉 Linux 内核网络协议栈,清楚数据包在 Iptables 四表五链路径,具备配置能力;
8、有以下一项或多项经验者优先:对混合云、数据中心建设有独特理解,对常见运维问题有丰富的经验优先;
9、了解GPU、大模型训推等相关知识。