职位描述
1.熟练掌握 kubernetes 编排服务框架,Docker 容器技术相关的操作系统基础设施有深入的理解;
2.负责线上各个业务系统的监控告警;
3.负责或参与公司容器、操作系统/内核、网络、存储等相关问题分析定位;
4.负责提升容器服务整体稳定、安全、高可用等,优化平台性能和扩展性;
5.负责应用系统的相关文档的编写等;
任职要求:
1.本科及以上学历。具备5年及以上集群运维相关经验;
2.熟练掌握Linux,计算机网络和操作系统相关知识;
3.能准确定位平台、系统、程序问题,熟练进行故障排查、配置调优、性能分析;
4.熟练使用 Kubernetes,熟悉 kubernetes 的各个组件的工作流程,对Kubernetes CNI、CSI、LB、ETCD等有丰富的部署调优实践经验;
5.熟练配置Prometheus、AlertManager、Grafana等部署、配置、优化工作;
6. 及时响应客户请求,现场或远程协助客户故障排除,协助研发解决产品阻塞性问题。
7. 部署或适配常见大/小模型,对齐精度并调优训练和推理框架策略。
8. 根据业务要求,产出各场景benchmark的精度和性能数据。
9. 沉淀和开发模型适配、测试过程中的效率工具及相关技术文档。
10.熟练Calico网络组件,有CCNP/HCNP或更高证书优先;
11.具备良好的沟通表达能力,学习能力,工作积极主动;
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕