职位描述
职位描述
1. 负责分布式大语言模型 (LLM) 推理系统的底层基础设施研究与探索,包括 GPU 和 RDMA 等,提升 GPU 环境下的稳定性和计算效率;
2. 负责大规模模型训练场景优化工作,通过建设全面的异常发现、故障自愈机制,提升平台训练 MFU,降低训练成本;
3. 基于容器以及 Kubernetes 技术,负责对机器学习领域中的资源调度、模型训练、模型推理、数据管理等多个子方向的成本效率优化工作;
4. 持续关注并跟进业界技术发展,比如超长上下文、思维链、多模态方向;
任职要求
1. 本科及以上学历,计算机相关专业;
2. 掌握常用数据结构与算法,具备扎实的编程基础和良好的编码习惯;
3. 熟悉至少一种编程语言(如 Golang、Java、Python 等);
4. 有 Docker、Kubernetes、vLLM、SGLang、RouteLLM 等技术的学习或实践经验者优先,参与过开源项目更佳;
5. 积极主动,自驱力强,具备良好的团队合作精神和解决问题的能力;
6. 对如下一个或多个领域有浓厚的兴趣,并愿意付出自己的时间进行深入研究和探索:
a. 机器学习框架:PyTorch、TensorFlow等机器学习框架、GPU等异构计算芯片及优化、MLOps、CV/NLP/搜广推等领域模型算法等;
b. 云原生:Kubernetes及容器系统、大规模训练任务和推理服务编排和调度、镜像加速等;
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕