职位描述
【岗位职责】
模型蒸馏与压缩: 负责将开源大模型(如 DeepSeek, Llama, Qwen 等)通过蒸馏、量化(AWQ, GPTQ, GGUF)、剪枝等技术,适配至公司指定的本地化硬件环境。
推理引擎开发: 负责搭建和优化高性能本地推理后端,利用 vLLM, TensorRT-LLM 或 TGI 等框架提升并发处理能力并降低首字延迟。
私有化部署: 设计并实施大模型在私有云或边缘计算节点(如 RTX 4090 集群、Mac Studio 或国产昇腾环境)的部署方案。
性能调优: 解决模型在本地运行中的显存溢出(OOM)、推理卡死、驱动兼容性等工程问题,持续优化 GPU 利用率。
工程化集成: 编写高效的 API 接口,对接业务系统,实现模型从训练到部署的自动化 Pipeline。
【任职要求】
教育背景: 计算机、自动化、数学等相关专业本科及以上学历,2 年以上 AI 相关工程经验。
模型经验: 熟悉大模型微调流程(LoRA, QLoRA),有实际的模型蒸馏或指令微调项目落地经验者优先。
部署方案: 深入理解 LLM 显存占用计算原理,熟练使用 vLLM / Ollama / llama.cpp 中的至少一种进行过生产级部署。
技术栈:
精通 Python 及 PyTorch 框架;
熟练掌握 Docker / NVIDIA-Docker 容器化技术及 Linux 系统底层运维;
了解 CUDA 编程或 Triton 算子优化者大加分。
硬件认知: 对 NVIDIA 显卡架构(如 Ada, Ampere)有清晰认知,有国产 AI 芯片(华为昇腾、寒武纪、海光)适配经验者优先。
解决问题能力: 能够独立阅读英文技术文档,对 Hugging Face 生态系统有深度使用经验。
【加分项】
在 GitHub 上有主流推理框架或大模型微调相关贡献者。
有过 70B 及以上参数量模型在有限算力下跑通推理的实战案例。
熟悉分布式推理
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕