1.5-2.5万
零次方机器人(深圳)有限公司
我们正在寻找一位资深具身模型分布式训练师,负责领导大规模具身智能模型的分布式训练工作。您将参与构建业界领先的机器人智能系统,推动具身智能技术的边界。
设计并实施大规模具身模型的分布式训练架构,包括数据并行、模型并行、流水线并行等策略
开发和优化多机多卡环境下的训练框架,提升训练效率和系统稳定性
构建高效的分布式仿真环境,支持大规模并行数据收集和策略评估
实现混合并行训练方案,优化通信开销和计算资源利用率
分析和解决分布式训练中的性能瓶颈,包括通信、内存、计算等方面
开发梯度同步优化、通信压缩、重叠计算等性能优化技术
设计和实施容错机制,确保长时间训练的稳定性和可靠性
优化GPU显存使用,支持更大模型和批次的训练
研究和应用最新的分布式训练算法,如ZeRO、MoE等先进技术
开发适应具身智能特点的训练策略,包括多任务学习、元学习、课程学习等
设计高效的强化学习分布式训练框架,支持离线与在线混合训练
探索仿真到实物的迁移学习技术,提升模型在真实环境中的表现
构建自动化训练流水线,实现模型训练、评估、部署的全流程管理
开发训练监控系统,实时跟踪训练状态、资源使用和性能指标
设计和维护多集群训练环境,支持弹性扩缩容和资源调度
建立模型版本管理和实验追踪体系
领导技术方案设计和代码审查,确保代码质量和系统可靠性
指导初级工程师,分享分布式训练的最佳实践和经验
与算法团队、硬件团队紧密合作,优化端到端训练性能
撰写技术文档,沉淀知识体系,推动团队技术成长
3年以上分布式训练相关工作经验
精通PyTorch分布式训练框架(DDP, FSDP, RPC等)
熟悉NCCL、MPI等通信库和性能优化
有大模型(10B+参数)分布式训练实战经验
熟练掌握Python和Linux环境下的开发调试
有具身智能、机器人学习相关项目经验
熟悉强化学习分布式训练框架(Ray, RLlib等)
有Kubernetes、Slurm等集群管理经验
在顶级会议(NeurIPS, ICML, ICLR等)发表过相关论文
熟悉CUDA编程和内核优化
具有竞争力的薪酬待遇和股权激励
业界领先的计算资源(数百张A100/H800集群)
与顶尖团队共事的机会,参与前沿技术研发
良好的职业发展通道和技术成长空间
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕