「西安雁塔区系统架构师(MaaS平台)(004990)招聘」

职位详情

系统架构师(MaaS平台)(004990)

面议

中国移动

西安

5-10年

本科

08-20

工作地址

西安国寿金融中心

职位描述

岗位描述

1. 负责 AI 领域 MaaS（模型即服务）平台整体技术架构设计，聚焦训推一体能力建设，主导训练框架、推理引擎、算力调度、模型管理等核心模块的架构规划与技术选型；
2. 设计分布式训练系统架构，优化大规模并行训练（数据并行、模型并行、流水线并行）方案，解决超大规模模型（如 LLM、多模态模型）训练中的性能瓶颈与资源调度问题；
3. 负责推理服务架构设计，构建低延迟、高吞吐的模型推理集群，实现动态扩缩容、负载均衡、模型版本管理与 A/B 测试能力，支持在线推理、批量推理等多场景；
4. 设计算力资源管理与调度架构，实现 GPU/TPU 等异构算力的池化管理、资源隔离、弹性分配与利用率优化，支持算力按需分配、共享与计费计量；
5. 主导平台高可用架构设计，保障训练任务容错性、推理服务连续性，解决分布式系统中的一致性、数据可靠性、故障恢复等关键问题；
6. 设计模型生命周期管理架构，整合数据预处理、模型训练、评估、部署、监控全流程，构建可复用的 AI 工作流引擎与自动化流水线；
7. 推动架构落地，制定技术规范与接口标准，指导开发团队实现核心模块，参与关键代码评审，解决架构层面的技术难题；

8. 跟踪 AI 框架（TensorFlow/PyTorch/MXNet）、分布式计算（Ray/Spark）、云原生（Kubernetes/Operator）等技术演进，引入先进架构理念优化平台性能与扩展性。

任职要求

1. 计算机相关专业本科及以上学历，8 年以上技术研发经验，其中 1 年以上 AI 平台（训推一体 / 算力管理）架构设计经验，主导过至少 1 个大规模 AI MaaS 平台从 0 到 1 的架构落地；
2. 深入理解深度学习训练与推理原理，精通至少一种主流 AI 框架（TensorFlow/PyTorch）的底层机制，具备分布式训练框架（如 Megatron-LM、DeepSpeed）二次开发或架构优化经验；
3. 精通分布式系统设计，熟悉分布式一致性协议（Paxos/Raft）、任务调度算法（Gang Scheduling、Fair Scheduling），有大规模集群（千卡级以上 GPU）资源管理与调度经验；
4. 精通云原生技术栈，深入理解 Kubernetes 核心原理，有基于 K8s 构建 AI 平台的实战经验，熟悉 Kubeflow、Volcano 等 AI 原生调度框架者优先；
5. 熟悉 GPU 虚拟化（vGPU/MIG）、容器化部署、异构计算架构，具备 GPU 算力性能调优、资源利用率优化实战经验；
6. 深入理解存储系统架构，熟悉分布式文件系统（如 Ceph、GlusterFS）、对象存储（S3 兼容）在 AI 训练场景的应用与优化；
7. 具备良好的技术文档编写能力，能输出清晰的架构设计方案、技术白皮书、性能优化报告等文档；
8. 具备较强的问题拆解与攻坚能力，有处理大规模 AI 集群故障、性能瓶颈的实战经验，良好的跨团队技术沟通与推动能力。

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕