职位详情
大模型推理平台研发工程师
1.5-2万
北京国简科技有限公司
南京
1-3年
本科
08-20
工作地址

泽天能源-西楼

职位描述
大模型推理平台研发工程师
一、岗位职责
核心功能开发与优化
参与大模型推理管理平台的二次开发,包括分布式调度算法(如Binpack/Spread策略
)、多推理后端(vLLM/llama.cpp)集成,以及异构GPU资源管理(NVIDIA/AMD/昇腾等)。
优化大规模模型推理性能,支持单机多卡与跨节点分布式推理,解决高并发场景下的资源争用问题
生态适配与扩展
扩展国产硬件支持(如华为昇腾、海光DCU),适配多模态模型(VLMs)、RAG知识库组件(Embedding/Reranker模型)。
开发与OpenAI兼容的API接口,支持多模型对比视图、实时监控仪表盘等功能的定制化开发。
部署与运维支持
设计容器化部署方案(Docker/Kubernetes),编写自动化脚本(如GPU资源注册、集群配置YAML)。
实现细粒度资源监控(GPU利用率、Token吞吐量)和故障诊断工具,保障生产环境高可用。
安全与协作
开发RBAC权限控制、API密钥管理模块,确保企业级数据安全。
二、任职要求
学历​:统招本科及以上学历(硕士优先),计算机科学与技术、软件工程、人工智能、电子信息工程等相关专业。
5-7年工作经验,2年以上分布式系统或AI基础设施开发经验,有GPU集群管理工具(如Ray/Slurm)或向量数据库二次开发背景。
精通Rust(异步编程/内存安全)、Python(SDK开发)、java编程,熟悉C++/Go者优先;
掌握Kubernetes调度原理,熟悉分布式推理架构(如RDMA/NVLink优化);
熟悉PyTorch/TensorFlow模型部署,了解LLM/VLM多模态技术栈
熟练使用DevOps工具(Docker/Git)、监控系统(Prometheus/Grafana)
编程基础:精通Python,熟悉Go或Java,具备扎实的数据结构和算法功底,能编写高性能、可维护的代码;
有GpuStack、Xinference等应用或二次开发经验者优先考虑

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请