职位详情
GPU训练优化
5-10万
米斯特奥福(大连)咨询服务有限公司
大连
3-5年
本科
01-30
工作地址

大连腾飞园区

职位描述
主要职责
- 优化大语言模型训练框架(如PyTorch、DeepSpeed、Megatron-LM、FSDP),最大化GPU利用率并缩短训练周期
- 分析与优化分布式训练瓶颈(如NCCL通信问题、CUDA内核效率、通信开销)
- 实施并调优推理优化技术(如量化、动态批处理、KV缓存),实现低延迟高吞吐的大语言模型服务(vLLM、TensorRT-LLM、Triton、SGLang)
- 与基础设施团队协作改进GPU集群调度、资源分配及大规模训练任务的容错机制
- 开发基准测试工具,持续提升训练吞吐量、内存效率与推理延迟指标
- 研究并应用前沿技术(如混合专家模型、推测解码)优化大语言模型性能
必备资质
- 3年以上GPU加速机器学习训练与推理优化实战经验,大语言模型或大规模深度学习模型方向优先
- 精通PyTorch、DeepSpeed、FSDP或Megatron-LM框架,具备分布式训练优化经验
- 深入掌握大语言模型推理优化技术(如量化、剪枝、KV缓存、连续批处理)
- 计算机科学、工程或相关专业本科及以上学历
附加技能
- 熟悉CUDA编程、Triton内核开发、NVIDIA工具链(Nsight、NCCL)及性能分析工具(如PyTorch Profiler、TensorBoard)
- 具备大语言模型专项优化经验(如FlashAttention、PagedAttention、LoRA、推测解码)
- 了解Kubernetes GPU工作负载管理(如KubeFlow、Volcano)
- 有开源机器学习框架贡献经历(如PyTorch、DeepSpeed、vLLM)
- 掌握推理服务框架(如vLLM、TensorRT-LLM、Triton、Hugging Face TGI)

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请