岗位职责:
搭建AI平台底层基础设施,保障资源调度与容器化部署,支撑大规模AI训练与推理任务的高效运行。
1.设计基于OpenStack/Kubernetes的混合云平台,支持跨数据中心资源调度
2.构建多集群管理方案,实现AI算力资源(CPU/GPU/NPU)的统一纳管与动态分配
3.设计Ceph分布式存储集群,优化AI训练数据集访问性能
4.优化网络虚拟化技术,提升AI模型训练/推理吞吐量
5.开发智能调度算法,动态平衡计算资源与任务优先级
6.优化容器编排及自动化运维方案
7.实现AI算力资源的动态分配与监控
任职要求:
1.5年以上云计算开发经验,本科及以上学历,计算机相关专业
2.精通OpenStack/Kubernetes的部署及使用,有解决生产环境问题的经验
3.熟练掌握Linux环境编程,熟练掌握Python及相关衍生技术栈
4.熟悉分布式存储(如Ceph)及网络虚拟化技术
5.深入理解Kubernetes调度器、CRI运行时等核心模块源码
6.掌握OpenStack Nova/Neutron组件二次开发,熟悉虚拟化技术(KVM/QEMU)
7.有AI算力池建设经验(如GPU资源池化、弹性训练框架集成)
8.熟悉国产化云平台(如OpenEuler+KubeEdge)适配改造