职位描述
办公地点:熙悦汇附近
核心职责:
- 负责RAGFlow、Dify等大模型框架的私有化部署及性能调优(需支持千亿级参数模型)
- 基于Docker/K8s构建高可用AI服务集群,实现GPU资源动态调度与监控告警
- 开发Python中间件对接LangChain/LLamaIndex等工具链,优化Token处理效率
- 设计模型微调流水线,支持LoRA/QLoRA等轻量化训练方案
- 构建模型服务的A/B测试框架及灰度发布机制
硬性要求:
- 计算机/数学专业硕士,2年以上AI工程化落地经验
- 精通Python异步编程,熟悉FastAPI/GRPC等高性能框架
- 熟练使用Kubeflow/Triton等MLOps工具链,有vLLM优化经验者优先
- 掌握NVIDIA-Docker配置及CUDA核心优化技巧
- 熟悉大模型量化部署(AWQ/GPTQ)及显存优化方案
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕