职位描述
1. 参与研发AI算力云产品,设计和实现多集群分布式AI算力调度服务平台;
2. 参与研发AI大模型平台,支撑超大规模的模型训练和推理,打造高效稳定的基础设施;
3. 优化AI基础平台使用体验,使其可监控、易于使用、管理和扩展;
4.分布式系统与集群优化,设计并优化大规模 GPU 集群的分布式训练与推理性能;
5.异构计算平台优化,提升 AI 模型在GPU、国产 AI 芯片等异构硬件上的计算效率及稳定性;
6.跟踪新兴技术与生态,推动 NLP、多模态、CV 等 AI 任务的性能优化。
任职要求
1. 计算机软件或相关专业本科以上学历;
2. 优秀的编码能力,熟练掌握 Java/Go/Python/C/C++ 至少一门语言,有前后端服务开发经验优先;
3. 熟悉常用的Linux操作系统,了解分布式系统基础架构,如微服务,容器化等;
4.熟悉 Kubernetes(K8s)、容器化技术(Docker 等),有云原生 AI 计算平台实践经验者优先;
5.熟悉 TensorFlow / PyTorch / Paddle / OneFlow / MXNet / vLLM 至少一种深度学习框架,了解推理引擎(TensorRT / TVM / OpenVINO 等);
6.有深度学习、大模型训练推理、LLM大模型RAG系统搭建经验,熟悉langchain等常用LLM开发框架和向量库;
7.具备自我驱动与自我管理能力,能够分析系统瓶颈,提出优化方案并推动落地。
加分项
1. 有AI平台开发的相关工作经验者优先,熟悉DevOps、MLOps概念,具备相关系统搭建和维护经验更佳;
2. ML、LLM相关开源贡献者,知名竞赛获奖者优先;
3. 具备扎实的算法和数据结构基础,熟悉程序的编译、调试和优化流程。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕