职位描述
岗位职责:
1、负责GPU算力服务平台的系统架构设计与开发运维工作,集成云原生能力,开发调度,训练,推理等相关功能,提升平台资源利用率和扩展能力;
2、负责线上环境的维护,监控,调优,和故障定位;
3、持续运营,改进平台性能、易用性和稳定性,优化用户体验。
岗位要求:
4、计算机、数学、物理、通信等等相关专业大学本科及以上学历,2年及以上相关工作经验;
5、熟练掌握Golang或者Python等编程语言,良好的编程基础;
6、熟悉云原生相关技术,如Kubeflow、Kubernetes、Operator等,具备二次开发经验;
7、熟悉调度器原理实现,有过kube-scheduler,GPU调度相关研发经验;
8、具备大规模GPU集群运维经验,能够持续优化集群使用效率并快速定位使用过程中遇到的问题;
9、具备强烈的责任心和良好的抗压能力,做事积极乐观主动。
任职要求:
1、熟悉算力中心的日常管理操作和维护中的软件/硬件;
2、熟悉国外/国内智算基础设施,包括GPU服务器、AI原生存储、无损网络、算力调度平台、算法模型等;
3、在计算、存储、网络、云计算、人工智能等方向具备良好的技术基础;
4、有智算或者云计算大中型项目主导实操经验、大型调优经验等优先;
5、性格开朗阳光、做事踏实细致、有责任心、有良好的学习能力、善于协调、具备较强的沟通表达能力。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕