职位描述
核心职责:
1、平台功能开发与定制:补充平台未开源的核心模块,定制开发企业级权限管理、多租户隔离等功能。
2、工作流与任务编排:使用 Argo Workflows 设计和实现复杂的机器学习任务流水线(DAG)。
3、训练算子与框架支持:开发和优化 Kubeflow 中的分布式训练算子(如 TFJob, PyTorchJob),支持多种深度学习框架。
4、GPU与计算资源管理:负责大规模GPU集群的智能调度、性能优化和虚拟化(如vGPU)管理,提升资源利用率。
5、系统集成与性能优化:将平台与企业内部系统(如数据中台、认证系统)集成,并持续优化平台在大规模任务下的稳定性和效率。
岗位要求:
1、硬性条件:
本科及以上学历,计算机相关专业。
3年以上Kubernetes开发经验,2年以上机器学习平台开发经验。
2、核心技术栈:
精通 Kubeflow:熟悉其Pipeline、训练算子(TFJob/PyTorchJob)和CRD开发。
精通 Argo Workflows:具备复杂工作流(DAG)编排和调试能力。
深度掌握GPU调度:熟悉Volcano调度器、NVIDIA设备插件(Device Plugin)和DCGM监控工具。
3、核心能力:
熟悉主流分布式训练框架(TensorFlow, PyTorch)。
具备云原生技术栈和CNCF生态的扎实基础。
拥有MLOps平台架构设计和性能调优的能力。
4、优先考虑(加分项):
有 Kubeflow 或其他MLOps平台二次开发的实际经验。
拥有 大模型(LLM)分布式训练或推理部署 的经验。
在 CNCF 相关开源项目 中有贡献记录。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕