职位描述
一.工作职责
1. 负责容器基础技术平台网络组件,集群管理,资源调度编排等功能扩展和二次开发;
2. 负责K8S日常运维工作中疑难问题的深入分析与解决;
3. 参与K8S周边生态技术研究,如serverless,service mesh,container runtime等;
4. 参与智算云容器引擎产品的建设工作(包括但不限于弹性AI任务调度管理、GPU/RDMA/国产芯片资源管理、异构资源(GPU/NPU)可观测等能力、智算集群的aiops)。
二.任职要求
1. 大学本科及以上学历,并取得相应学位,计算机及相关专业优先;
2. 熟练练掌握 Linux,数据计算机网络和操作系统相关知识;
3. 精通Golang或者Python,具备扎实的数据结构和问题排查能力
4. 熟悉K8S的整体架构及各组件工作原理;精通K8S容器Calico,Flannel等网络组件工作原理,包括CNI网络、Service、Ingress等;熟悉CSI存储插件;熟悉CRI运行时接口;熟悉Prometheus监控体系;熟悉k8s生态调度等组件开发;
5. 有容器引擎、分布式容器管理、服务网格、镜像加速、弹性容器实例、PAAS容器平台、容器运行时优化、容器算力平台等容器化项目相关研发经验优先;
6. 具有大规模GPU集群建设、调度、优化和故障排查运营经验者优先;
7. 熟悉主流深度学习框架Pytorch,熟悉大模型训练、调优、推理加速框架的优先。
8. 工作中有使用AI 辅助工具使用经验者有限。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕