职位描述
职位描述
1、参与快手大规模深度学习推理引擎、大模型训练解决方案的研发与优化,包括大模型推理、模型训练框架、微调平台等;
2、参与底层算子的优化、通过优化访存pattern、计算提升推理性能,与算法部门合作,为公司大模型定制训练方案,探索RLHF、MoE、多模态、longcontext等前沿方向,提升训练性能;
3、优化推理框架上层调度策略,通过机内、机间的计算任务调度和通讯优化提升引擎性能;优化现有大语言模型相关工具和平台,提高模型训练、维护效率,降低成本,提升训练服务稳定性。
任职要求
1、本科以上学历,电子、自动化、计算机类专业优先;
2、了解分布式系统或高性能计算相关知识,具备良好的系统编程、数据结构、算法基础、系统设计能力;
3、熟悉Linux开发环境、熟练使用Pytorch训练框架,掌握 C++/Python编程语言;
4、具有良好的团队合作精神和沟通能力。热爱钻研技术,善于分析、解决工程问题,能够对算法和底层的协同优化起到核心桥梁作用。
加分项:
1、熟悉tensorflow、pytorch、TensorRT, FasterTransformer等主流推理和训练框架,并有相关优化经验者优先;
2、具备大模型训练、分布式训练、微调经验、HPC基础知识,了解集合通信和CUDA编程,熟悉triton、cutlass、有算子库开发经验者优先;
3、在国际顶级会议/期刊上有相关论文发表优先;
4、有机器学习平台开发和深度学习框架开发等领域开发经验优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕