职位详情
具身模型分布式训练师
3-6万·14薪
合肥零次方机器人有限公司
深圳
3-5年
本科
12-18
工作地址

零次方机器人(深圳)有限公司

职位描述
职位概述

我们正在寻找一位资深具身模型分布式训练师,负责领导大规模具身智能模型的分布式训练工作。您将参与构建业界领先的机器人智能系统,推动具身智能技术的边界。


核心职责
1、技术研发与实现
  • 设计并实施大规模具身模型的分布式训练架构,包括数据并行、模型并行、流水线并行等策略

  • 开发和优化多机多卡环境下的训练框架,提升训练效率和系统稳定性

  • 构建高效的分布式仿真环境,支持大规模并行数据收集和策略评估

  • 实现混合并行训练方案,优化通信开销和计算资源利用率

2、系统优化与性能调优
  • 分析和解决分布式训练中的性能瓶颈,包括通信、内存、计算等方面

  • 开发梯度同步优化、通信压缩、重叠计算等性能优化技术

  • 设计和实施容错机制,确保长时间训练的稳定性和可靠性

  • 优化GPU显存使用,支持更大模型和批次的训练

3、算法创新与应用
  • 研究和应用最新的分布式训练算法,如ZeRO、MoE等先进技术

  • 开发适应具身智能特点的训练策略,包括多任务学习、元学习、课程学习等

  • 设计高效的强化学习分布式训练框架,支持离线与在线混合训练

  • 探索仿真到实物的迁移学习技术,提升模型在真实环境中的表现

4、工程部署与运维
  • 构建自动化训练流水线,实现模型训练、评估、部署的全流程管理

  • 开发训练监控系统,实时跟踪训练状态、资源使用和性能指标

  • 设计和维护多集群训练环境,支持弹性扩缩容和资源调度

  • 建立模型版本管理和实验追踪体系

5、团队协作与指导
  • 领导技术方案设计和代码审查,确保代码质量和系统可靠性

  • 指导初级工程师,分享分布式训练的最佳实践和经验

  • 与算法团队、硬件团队紧密合作,优化端到端训练性能

  • 撰写技术文档,沉淀知识体系,推动团队技术成长


任职要求必备条件
  • 3年以上分布式训练相关工作经验

  • 精通PyTorch分布式训练框架(DDP, FSDP, RPC等)

  • 熟悉NCCL、MPI等通信库和性能优化

  • 有大模型(10B+参数)分布式训练实战经验

  • 熟练掌握Python和Linux环境下的开发调试


优先考虑
  • 有具身智能、机器人学习相关项目经验

  • 熟悉强化学习分布式训练框架(Ray, RLlib等)

  • 有Kubernetes、Slurm等集群管理经验

  • 在顶级会议(NeurIPS, ICML, ICLR等)发表过相关论文

  • 熟悉CUDA编程和内核优化


我们提供
  • 具有竞争力的薪酬待遇和股权激励

  • 业界领先的计算资源(数百张A100/H800集群)

  • 与顶尖团队共事的机会,参与前沿技术研发

  • 良好的职业发展通道和技术成长空间

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请