职位详情
大模型推理框架架构师
3.5-6万
金数通(北京)科技有限公司
北京
5-10年
硕士
04-25
工作地址

西北旺东路10号院东区8

职位描述
职位名称:大模型推理框架架构师
一、岗位职责:
1. 核心框架研发与性能优化
1.1 主导大模型推理框架(包含 NVIDIA GPU 和昇腾 NPU)的设计与开发,优化推理性能(低延迟、高吞吐),包含算子优化、通信优化、分布式推理调度、Prefill/Decoding阶段解耦等技术方向。
1.2 探索模型压缩技术(如量化、剪枝、蒸馏),平衡模型精度与推理效率,推动技术落地。
1.3 构建端到端推理性能评估体系,设计自动化调优工具,提升优化效率。
2. 团队管理与技术攻坚
2.1 带领3-5人技术团队完成复杂模块开发,制定技术方案并推动落地,协调资源解决技术瓶颈。
2.2 建立代码规范与工程实践标准,主导技术文档编写与核心代码Review,培养团队成员技术能力。
3. 跨领域协作与行业洞察
3.1 与产品团队紧密配合,理解业务需求并转化为技术方案,推动框架与业务场景深度适配。
3.2 跟踪LLM推理领域最新进展(如动态批处理、连续批处理、KV Cache优化等),探索技术突破点。
二、任职要求:
1. 基础能力
1.1 计算机/数学/电子信息相关专业硕士及以上学历,5年以上深度学习框架开发经验。
1.2 精通C++/Python,熟悉CUDA、多线程编程、分布式系统设计,具备复杂问题抽象与系统架构能力。
2. 技术专项
2.1 深入理解Transformer架构及主流大模型(如GPT、Llama)推理特性,熟悉vLLM、TensorRT-LLM、TGI等框架源码。
2.2 具备算子优化实战经验(Kernel融合、内存复用),熟悉通信优化技术(流水线并行、AllReduce优化)。
2.3 掌握分布式推理调度策略(动态负载均衡、异构设备协同),有大规模集群优化经验者优先。
2.4 熟悉大模型推理常见的优化技术:动态批处理、KV-Cache 优化、投机采样、连续批处理(Continuous Batching)、量化推理、注意力机制优化;
3. 软性要求
3.1 主导过至少2个大型项目全流程开发,具备从技术方案设计到生产部署的全链路把控能力。
3.2 擅长技术团队管理与跨部门协作,能够通过技术文档、案例复盘等方式推动团队能力提升。
3.3 在顶会(ASPLOS、MLSys等)发表过系统优化相关论文,或主导过开源项目者优先。
三、加分项:
1. 熟悉MoE架构推理优化、多模态大模型部署、存算一体等前沿技术
2. 具备LLM服务化部署经验(流量调度、弹性伸缩、故障自愈)
3. 掌握Triton等定制化编译器开发能力

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请