职位描述
 岗位职责:
 1. 负责vLLM/SGLang/TensorRT等主流大模型推理框架的部署以及调优,能分析定位性能瓶颈问题
2. 构建基于大模型的端到端Benchmark,为模型性能评估提供科学、标准化的参照体系;
3. 持续跟踪MoE架构、FlashAttention-3、Speculative Decoding、GPU资源动态调度与异构计算加速等前沿技术,主导POC验证与生产环境适配
4. 与业务平台密切合作,提供大模型能力
任职要求:
1. 具备前瞻性技术敏锐度与内生驱动力,能够在LLM技术快速迭代背景下构建体系化学习路径,针对模型优化瓶颈开展系统性技术攻坚
2. 本科及以上学历,计算机、软件工程、人工智能等相关专业;
3. 精通Python,熟悉常用linux系统命令,熟练编写Bash/Python自动化运维脚本;
4. 深入理解大模型架构细节,熟悉PagedAttention、Dynamic Batching、MoE架构、FlashAttention-3、DeepEP等推理加速原理
4. 熟练使用推理引擎(如SGLang、vLLM等),熟练大模型推理部署、优化、微调流程,了解分布式KV Cache架构,能够针对不同阶段开展测试工作;
5. 加分项:有大模型相关开源项目贡献经历。
  以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕