职位描述
职位描述:
1. 引领大模型推理性能优化:负责全球领先的大规模语言模型(LLM)推理性能优化,挑战世界级技术难题,显著降低推理时延,提升吞吐量,并大幅降低推理成本,推动AI技术的边界。
2. 深度参与前沿技术研发:探索并实现推理优化技术,如FlashAttention、PageAttention、Continuous Batching、Speculative Decoding等,确保我们的推理引擎在全球范围内保持技术领先地位。
3. 跨硬件平台的极致优化:针对不同硬件架构(如GPU、TPU等),设计并实现高效的推理加速方案,结合剪枝、量化、分布式推理等技术,最大化硬件利用率,提升系统整体性能。
4. 推动AI推理引擎的创新:深入理解并优化主流推理引擎(如vLLM、sglang),结合CUDA/Cutlass等底层开发工具,打造高性能、低延迟的推理框架,为全球用户提供极致的推理体验。
职位要求:
1. 深厚的模型架构理解:熟悉Transformer、LLaMA、DeepSeek等主流大模型架构,能够深入理解并优化其推理过程。
2. 前沿推理技术掌握:精通LLM推理引擎(如vLLM、sglang),熟悉MLA、FlashAttention、PageAttention、Continuous Batching、Speculative Decoding等推理优化技术,具备实际应用经验。
3. 丰富的推理优化经验:具备AI模型推理优化的实战经验,熟悉剪枝、量化、分布式推理等加速技术,能够根据不同场景和硬件平台进行针对性优化。
4. 硬件与底层开发能力:熟悉GPU硬件架构,具备CUDA/Cutlass开发与优化经验,能够深入底层进行性能调优。
5. 全球视野与创新精神:具备强烈的技术好奇心与创新意识,愿意挑战世界级难题,推动AI推理技术的全球突破。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕