职位详情
算力数据中心工程师
2-4万
北京神州邦邦技术服务有限公司
广州
3-5年
本科
10-13
工作地址

中国移动南方基地

职位描述
岗位职责:
1. 对接 AI、大数据、渲染等业务线,收集并拆解 CPU/GPU/内存/网络/存储等多维度算力需求,输出标准化评估模型与资源规格说明书;
2. 结合业务增长曲线,制定季度/年度智算资源规划,完成容量预测、预算评估与 ROI 分析,推动资源池化与弹性伸缩方案落地;
3. 主导智算集群(GPU/ASIC/FPGA)选型、测试、Benchmark 及上线交付,确保性能、稳定性、成本三平衡;
4. 设计并实现算力调度策略与配额管理机制,持续提升集群利用率(>70%)与作业排队效率;
5. 建立端到端成本监控体系,定期输出资源使用与优化报告,通过算法加速、模型压缩、分布式训练改造等手段降低单位算力成本 ≥20%;
6. 沉淀算力需求评估、交付、运营流程与文档,赋能业务团队高效、合规使用智算资源;
跟踪国内外智算前沿技术(RDMA、GPU 池化、无损网络、CXL 等),完成技术预研与落地转化。
任职要求:
1. 本科及以上学历,计算机、软件工程、电子信息、自动化等相关专业;
2. 3年以上智算(AI/HPC)项目经验,完整主导过千张 GPU 卡或以上规模集群的规划、交付或优化项目;
3. 熟悉主流 GPU(NVIDIA A100/H100、AMD MI 系列)架构、性能调优及故障定位,掌握 CUDA/ROCm 生态工具;
4. 理解分布式训练(DDP、DeepSpeed、Megatron)与推理加速(TensorRT、ONNXRuntime、vLLM)原理,具备实际性能调优案例;
5. 熟悉 Kubernetes、Slurm、YARN 等至少一种资源调度框架,有二次开发或插件扩展经验者优先;
6. 具备扎实的Linux系统、网络(RDMA、GPUDirect)、存储(NVMe-oF、并行文件系统)知识,能独立进行

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请