职位描述
岗位职责:
1、高性能推理引擎开发,研发低延迟推理模型。
1、负责千亿级基座模型深度优化和架构改造,优化注意力机制与位置编码,提升对复杂语义模式的捕捉能力;
2、设计领域自适应训练框架,实现垂直知识的高效注入与模型快速收敛;
3、开发动态计算路径,针对高并发与深度分析任务定向优化计算资源。
4、大模型分布式训练攻坚,基于Megatron-LM 、DeepSpeed或 构建集群方案,突破显存/通信瓶颈;
5、设计混合精度管理模块(FP8/FP16),解决梯度异常问题;
6、构建自动化监控系统,实时诊断万亿Token级训练任务。
7、为NVIDIA H20/Ascend 910B定制CUDA/Triton算子,实现计算密集型任务加速。
8、探索MoE动态路由机制在复杂任务中的负载均衡优化。
任职要求
1、计算机科学/AI/应用数学方向硕士及以上学历;
2、2年及以上大模型研发经验;
3、精通矩阵分析、概率图模型、优化理论,深入理解计算复杂性理论、分布式系统CAP定理;
4、主导过大集群训练200B+参数模型实战经验;
5、能构建显存优化方案,改造模型通信模块,降低通信开销;
6、高性能推理引擎,交付过万QPS高并发服务(P99延迟<200ms)
7、具备模型架构深度改造能力,改进RoPE/ALiBi位置编码(支持>128K上下文),
设计动态稀疏Attention机制,开发领域适配层;
8、有昇腾910B 或H20 算子开发经验,能设计HBM分层KV缓存策略,提高缓存命中率。
9、具有高水平论文或专利能力者优先:在 NeurIPS/ICLR/ICML/ACL 发表过模型优化相关论文,或持有分布式训练或推理加速有效发明专利;
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕