岗位描述
1. 负责 AI 领域 MaaS(模型即服务)平台整体技术架构设计,聚焦训推一体能力建设,主导训练框架、推理引擎、算力调度、模型管理等核心模块的架构规划与技术选型;
2. 设计分布式训练系统架构,优化大规模并行训练(数据并行、模型并行、流水线并行)方案,解决超大规模模型(如 LLM、多模态模型)训练中的性能瓶颈与资源调度问题;
3. 负责推理服务架构设计,构建低延迟、高吞吐的模型推理集群,实现动态扩缩容、负载均衡、模型版本管理与 A/B 测试能力,支持在线推理、批量推理等多场景;
4. 设计算力资源管理与调度架构,实现 GPU/TPU 等异构算力的池化管理、资源隔离、弹性分配与利用率优化,支持算力按需分配、共享与计费计量;
5. 主导平台高可用架构设计,保障训练任务容错性、推理服务连续性,解决分布式系统中的一致性、数据可靠性、故障恢复等关键问题;
6. 设计模型生命周期管理架构,整合数据预处理、模型训练、评估、部署、监控全流程,构建可复用的 AI 工作流引擎与自动化流水线;
7. 推动架构落地,制定技术规范与接口标准,指导开发团队实现核心模块,参与关键代码评审,解决架构层面的技术难题;
8. 跟踪 AI 框架(TensorFlow/PyTorch/MXNet)、分布式计算(Ray/Spark)、云原生(Kubernetes/Operator)等技术演进,引入先进架构理念优化平台性能与扩展性。
任职要求
1. 计算机 相关专业本科及以上学历,8 年以上技术研发经验,其中 1 年以上 AI 平台(训推一体 / 算力管理)架构设计经验,主导过至少 1 个大规模 AI MaaS 平台从 0 到 1 的架构落地;
2. 深入理解深度学习训练与推理原理,精通至少一种主流 AI 框架(TensorFlow/PyTorch)的底层机制,具备分布式训练框架(如 Megatron-LM、DeepSpeed)二次开发或架构优化经验;
3. 精通分布式系统设计,熟悉分布式一致性协议(Paxos/Raft)、任务调度算法(Gang Scheduling、Fair Scheduling),有大规模集群(千卡级以上 GPU)资源管理与调度经验;
4. 精通云原生技术栈,深入理解 Kubernetes 核心原理,有基于 K8s 构建 AI 平台的实战经验,熟悉 Kubeflow、Volcano 等 AI 原生调度框架者优先;
5. 熟悉 GPU 虚拟化(vGPU/MIG)、容器化部署、异构计算架构,具备 GPU 算力性能调优、资源利用率优化实战经验;
6. 深入理解存储系统架构,熟悉分布式文件系统(如 Ceph、GlusterFS)、对象存储(S3 兼容)在 AI 训练场景的应用与优化;
7. 具备良好的技术文档编写能力,能输出清晰的架构设计方案、技术白皮书、性能优化报告等文档;
8. 具备较强的问题拆解与攻坚能力,有处理大规模 AI 集群故障、性能瓶颈的实战经验,良好的跨团队技术沟通与推动能力。