职位描述
岗位职责:
1. 负责开发和优化大模型训练系统,使用混合并行、自动并行和通信优化等技术,提高内部模型训练的速度和效率;
2. 设计并实现高效的大模型训练工具,紧跟模型架构的演进,不断优化并行训练策略,以满足公司业务发展的需求;
3. 深入进行大模型训练的性能分析,精准识别并解决训练过程中的性能瓶颈,确保训练效率最大化,充分挖掘硬件资源的潜力。
任职要求:
1. 拥有计算机科学或相关领域硕士学位,对分布式系统、机器学习系统有深入的理解和实践经验;
2. 熟悉至少一种编程语言,熟悉PyTorch FSDP、DeepSpeed或Megatron-LM等任一分布式训练框架,优先考虑有大规模预训练模系统优化经验的候选人。
3. 良好的数据分析和问题解决能力,良好的业务理解能力。
4. 优先考虑在计算机系统领域的顶级会议和期刊发表过发表过论文的候选人。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕